You are on page 1of 220

FEEDFORWARD NEURAL NETWORKS

UNTUK PEMODELAN RUNTUN WAKTU















OLEH :

SUHARTONO




UNIVERSITAS GADJAH MADA
YOGYAKARTA
2007

FEEDFORWARD NEURAL NETWORKS
UNTUK PEMODELAN RUNTUN WAKTU








Disertasi untuk memperoleh
Derajat Doktor dalam Ilmu Matematika pada
Universitas Gadjah Mada










Dipertahankan di hadapan
Dewan Penguji Sekolah Pascasarjana
Universitas Gadjah Mada

Pada tanggal: 25 September 2007








oleh

Suhartono

Lahir

di Malang, 29 September 1971


iii






Prof. Drs. H. Subanar, Ph.D.
Promotor









Prof. Drs. Suryo Guritno, M.Stat., Ph.D.
Ko promotor








iv
PERNYATAAN PROMOVENDUS


Dengan ini saya menyatakan bahwa dalam Disertasi ini tidak terdapat
karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu
Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya
atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang
secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.



Yogyakarta, 27 September 2007
Yang menyatakan,



Suhartono



v


W hen the L ord created the worl d and people to l i ve in i t an
enterprise whi ch, accordi ng to modern sci ence, took a very l ong ti me
I coul d wel l i magi ne that H e reasoned with H i msel f as fol l ows: I f
I make everythi ng predi ctabl e, these human bei ngs, whom I have
endowed wi th pretty good brai ns, wi l l undoubtedl y l earn to predi ct
everythi ng, and they wi l l thereupon have no moti ve to do anythi ng at
al l , because they wi l l recogni ze that the future i s total l y determi ned
and cannot be i nfl uenced by any human acti on. On the other hand, i f
I make everythi ng unpredi ctable, they wi l l gradual l y di scover that
there i s no rati onal basi s for any deci si on whatsoever and, as i n the
fi rst case, they wi l l thereupon have no moti ve to do anythi ng at al l .
N ei ther scheme woul d make sense. I must therefore create a mi xture
of the two. L et some thi ngs be predictabl e and let others be
unpredi ctable. T hey wi l l then, amongst many other thi ngs, have the
very i mportant task of fi ndi ng out whi ch i s whi ch.

Smal l Is Beauti f ul
E. F. SCHUMACHER









U ntuk :

I striku tercinta Siti Azizah,
Anak-anakku tersayang
Al ivia Kirana Hartonoputri ,
Vanissa Farhania Hartonoputri



vi
PRAKATA


Dengan Nama Allah Yang Maha Pengasih lagi Maha Penyayang.

Puji syukur kepada Tuhan Yang Maha Kuasa atas segala rahmat dan
karunia yang telah dilimpahkan, sehingga penulisan disertasi dengan judul
FEEDFORWARD NEURAL NETWORKS
UNTUK PEMODELAN RUNTUN WAKTU
dapat terselesaikan dengan baik. Disertasi ini disusun untuk memenuhi sebagian
persyaratan guna memperoleh derajat Doktor dalam ilmu Matematika, Program
Pasca Sarjana Universitas Gadjah Mada.

Pada kesempatan ini, penulis mengucapkan terima kasih yang sedalam-
dalamnya kepada:
1. Prof. Drs. H. Subanar, Ph.D. dan Prof. Drs. Suryo Guritno, M.Stat., Ph.D.
sebagai Tim Pembimbing Program S3 Jurusan Matematika UGM, yang telah
membimbing, memberikan arahan dan dorongan selama penelitian dan
penulisan disertasi.
2. Tim Penilai dan Tim Penguji yang memberikan kritik dan saran untuk
penyempurnaan materi dan penulisan disertasi.
3. Dr. Toni Bakhtiar, S.Si., M.Sc. dari Jurusan Matematika, Institut Pertanian
Bogor, yang selalu memberikan bantuan kepustakaan khususnya soft journal
dari University of Tokyo.
4. Rektor Institut Teknologi Sepuluh Nopember dan Direktorat Jendral
Pendidikan Tinggi yang telah memberikan kesempatan dan pendanaan untuk
S3 kepada penulis.
5. Istri dan anak-anak tercinta, Alivia dan Vanissa, yang dengan sabar selalu
memberikan dukungan sampai disertasi ini dapat terselesaikan. Nenek,
bapak dan ibu yang selalu mendoakan kelancaran studi penulis.

vii
6. Drs. Brodjol Sutijo S.U., M.Si., Dra. Sri Rezeki, M.Si., Dra. Dhoriva Urwatul
Wutsqa, M.Si., dan Dra. Ema Carnia, M.Si., sebagai kandidat Doktor
Matematika yang telah menjadi rekan seperjuangan penulis selama
menempuh S3.
7. Semua pihak yang telah memberikan bantuan dalam penulisan disertasi ini.

Semoga disertasi ini memberikan manfaat, khususnya bagi per-
kembangan ilmu statistika dan umumnya bagi para pembaca.

Yogyakarta, 27 September 2007
Penulis,
Suhartono


viii
DAFTAR ISI


hal.
JUDUL, NAMA, TAHUN ............................................................................. i
DERAJAT .................................................................................................... ii
PERSETUJUAN .......................................................................................... iii
PERNYATAAN PROMOVENDUS .............................................................. iv
PERSEMBAHAN ........................................................................................ v
PRAKATA ................................................................................................... vi
DAFTAR ISI ................................................................................................ viii
ARTI LAMBANG DAN SINGKATAN .......................................................... xi
DAFTAR GAMBAR ..................................................................................... xiv
DAFTAR TABEL ......................................................................................... xvi
INTISARI ..................................................................................................... xvii
ABSTRACT ................................................................................................. xix
BAB I PENDAHULUAN ............................................................................. 1
1.1 Latar Belakang ............................................................................ 1
1.2 Perumusan Masalah ................................................................... 5
1.3 Batasan Penelitian ...................................................................... 6
1.4 Tujuan Penelitian ........................................................................ 7
1.5 Tinjauan Pustaka ........................................................................ 7
1.5.1 Konsep Dasar pada Analisis Runtun Waktu ................... 9
1.5.2 Neural Networks untuk Analisis Runtun Waktu .............. 11
1.5.3 Outline Disertasi .................. 16
BAB II ANALISIS RUNTUN WAKTU ......................................................... 18
2.1 Proses Autoregressive-Moving Average (ARMA) ...................... 18
2.2 Estimasi Parameter Model ARMA .............................................. 22
2.2.1 Estimasi Yule-Walker ..................................................... 22
2.2.2 Estimasi Maximum Likelihood dan Least Squares ......... 24
2.3 Teori Asimtotis ............................................................................ 27

ix
2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence) 28
2.3.2 Konvergen dalam Probabilitas ........................................ 28
2.3.3 Konvergen dalam Mean ke r, r > 0 ................................ 32
2.3.4 Konvergen dalam Distribusi ............................................ 32
2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan ..... 36
2.4 Sifat Normalitas Asimtotis Estimator Model ARMA .................... 39
2.4.1 Sifat Estimator Yule-Walker ............................................ 39
2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares 41
BAB III FEED FORWARD NEURAL NETWORKS .................................... 44
3.1 Algoritma Backpropagation ........................................................ 47
3.2 Konsistensi Estimator Backpropagation ..................................... 54
3.3 Sifat Normalitas Asimtotis Estimator Backpropagation .............. 59
3.4 Uji Hipotesa untuk Parameter Model Neural Networks .............. 64
BAB IV FFNN UNTUK PERAMALAN RUNTUN WAKTU ......................... 68
4.1 Uji Nonlinearitas pada Data Runtun Waktu ................................ 69
4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier
(LM) dengan Ekspansi Taylor ........................................ 69
4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange
Multiplier (LM) dengan Ekspansi Taylor ......................... 77
4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange
Multiplier (LM) dengan Ekspansi Taylor ......................... 82
4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun Waktu 83
4.2.1 Kontribusi Penambahan melalui R
2
................................ 84
4.2.2 Inferensia Statistik dari Kontribusi Penambahan R
2
....... 85
4.2.3 Algoritma Pembentukan Model FFNN: Implementasi
Uji Nonlinearitas, Inferensia Statistik R
2
incremental
dan
Uji Wald ........................................................................... 90
BAB V HASIL EMPIRIS ............................................................................. 94
5.1 Pembentukan FFNN melalui Inferensia R
2
incremental
dan uji Wald .. 95
5.1.1 Hasil Prosedur Backward versi Kaashoek dan Van Dijk .. 95

x
5.1.2 Hasil Prosedur Forward melalui Uji R
2
incremental
untuk
Penentuan Jumlah Unit di Lapis Tersembunyi dan Unit
Input yang Optimal ......................................................... 98
5.1.3 Hasil Prosedur Backward dengan Uji Wald untuk
Pemilihan Unit Input yang Optimal ................................ 101
5.2 Perbandingan Ketepatan Ramalan antara FFNN dan Model
Runtun Waktu Univariat Klasik ................................................... 102
5.2.1 Hasil Perbandingan pada Kasus Inflasi Indonesia ......... 102
5.2.2 Hasil Perbandingan pada Airline Data ............................ 104
5.3 Efek Pemrosesan Awal Data terhadap Ramalan FFNN ......... 107
5.4 Aplikasi FFNN untuk Peramalan Runtun Waktu Multivariat ....... 110
5.4.1 Evaluasi Kondisi Stasioneritas Model GSTAR(1
1
) ......... 112
5.4.2 Evaluasi Penentuan Bobot Lokasi (Spasial) yang
Optimal pada Model GSTAR .......................................... 115
5.4.3 Perbandingan Ketepatan Ramalan antara FFNN dan
Model-model Runtun Waktu Multivariat ......................... 118
BAB VI KESIMPULAN DAN MASALAH TERBUKA ................................. 122
6.1 Kesimpulan ................................................................................. 122
6.2 Masalah Terbuka ........................................................................ 125
RINGKASAN ............................................................................................... 127
SUMMARY ................................................................................................... 149
DAFTAR PUSTAKA .................................................................................... 167
LAMPIRAN ................................................................................................... 177
DAFTAR RIWAYAT HIDUP ......................................................................... 197


xi
ARTI LAMBANG DAN SINGKATAN



t
Y : variabel respon atau output pada waktu ke-t dalam
t
X : variabel prediktor atau input pada waktu ke-t dalam
t
: variabel kesalahan random pada waktu ke-t dalam
) (
2
Var : variansi variabel random
) , (
s r
Y Y Cov : kovariansi antara variabel random
r
Y dan
s
Y
) (
Z
: fungsi autokovarians dari } {
t
Z
p
: matriks kovarians
det( ) A : determinan matriks A
IID : independent and identically distributed
IID
2
(0, ) : independent and identically distributed dengan mean dan
variansi
2

WN : white noise
WN ) , 0 (
2
: proses yang white noise dengan mean dan variansi
2

: harga mutlak
: norm
ARIMA : Autoregressive Integrated Moving Average
FFNN : Feedforward Neural Networks
MLP : Multi Layer Perceptrons
VAR : Vector Autoregressive
GSTAR : Generalized Space Time Autoregressive
( ) i k
x : variabel input sebanyak p , ) , , 2 , 1 ( p i K
( )

k
y : nilai dugaan dari variabel output (target)
k : indeks pasangan data input-target ) , (
) ( ) ( k k i
y x , n k , , 2 , 1 K

xii
h
ji ji
w , : bobot dari input ke- i yang menuju neuron ke- j

pada lapis
tersembunyi, dengan q j , , 2 , 1 K
,
j

o
j
w : bobot dari neuron ke- j di lapis tersembunyi yang menuju
neuron pada lapis output, dengan q j , , 2 , 1 K
h
j j
b ,
0
: bias pada neuron ke- j pada lapis tersembunyi, dengan
q j , , 2 , 1 K
o
b ,
0
: bias pada neuron di lapis output
h
j
f : fungsi aktifasi di neuron ke- j pada lapis tersembunyi
o
f : fungsi aktifasi pada neuron di lapis output
) ( : fungsi aktifasi secara umum pada FFNN atau MLP
: fungsi aktifasi logistik sigmoid
: fungsi aktifasi linear
) , ( w : bobot-bobot network secara keseluruhan
*
w : bobot network yang optimal
n
w : estimator untuk w
n
w
~
: estimator m yang rekursif untuk w

. .s a
: konvergen hampir pasti (almost sure)

p
: konvergen dalam probabilitas

d
: konvergen dalam distribusi

r
: konvergen dalam mean ke r
. . m s
: konvergen dalam kuadrat mean
) 1 , 0 ( : distribusi Normal standar
) , (
2
: distribusi Normal mean dan variansi
2

) , ( I 0 : distribusi Normal standar multivariat
) , ( : distribusi Normal multivariate mean dan variansi
n
W : uji statistik Wald
n
W

: nilai uji statistik Wald



xiii
LM : Lagrange Multiplier
R
2
incremental
: besaran kontribusi penambahan atau koefisien determinasi
tambahan
SSE : Sum of Squares Error (Residual)
SSR : Sum of Squares Regression
MAE : Mean Absolute Error
MAPE : Mean Absolute Percentage Error


xiv
DAFTAR GAMBAR



Gambar 1.1 : Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input,
empat unit neuron di lapis tersembunyi, dan satu unit output
dengan fungsi aktifasi linear pada lapis output
Gambar 1.2 : Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag
variabel dependen sebagai input (
3 2 1
, ,
t t t
Y Y Y ), empat unit
neuron di lapis tersembunyi, dan satu unit output (
t
Y ) dengan
fungsi aktifasi linear pada lapis output
Gambar 3.1 : Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q
unit neuron di lapis tersembunyi, dan satu unit neuron output
Gambar 3.2 : Ilustrasi dari persamaan update bobot-bobot pada lapis output
Gambar 3.3 : Ilustrasi dari persamaan update untuk bobot-bobot pada lapis
tersembunyi
Gambar 4.1 : Arsitektur model neural networks satu lapis tersembunyi pada
persamaan (4.1.4)
Gambar 4.2 : Plot runtun waktu data (2a), dan plot data dengan lag-lagnya,
yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3, dan
2e dengan lag 4, dari data simulasi AR(2)
Gambar 4.3 : Plot runtun waktu data (3a), dan plot data dengan lag-lagnya,
yaitu 3b dengan lag 1, 3c dengan lag 2, 3d dengan lag 3, dan
3e dengan lag 4, dari data simulasi Gerak Acak
Gambar 4.4 : Plot runtun waktu data (4a), dan plot data dengan lag-lagnya,
yaitu 4b dengan lag 1, 4c dengan lag 2, 4d dengan lag 3, dan
4e dengan lag 4, dari data simulasi LSTAR
Gambar 4.5 : Plot runtun waktu data (5a), dan plot data dengan lag-lagnya,
yaitu 5b dengan lag 1, 5c dengan lag 2, 5d dengan lag 3, dan
5e dengan lag 4, dari data simulasi ESTAR-2

xv
Gambar 4.6 : Prosedur pembentukan model melalui inferensia R
2
incremental

Gambar 4.7 : Prosedur kombinasi inferensia R
2
incremental
dan uji Wald
Gambar 5.1 : Plot runtun waktu dan plot variabel lag (y
t-1
, y
t-2
) dari data
simulasi
Gambar 5.2 : Output FFNN(6,6,1) tanpa satu unit variabel lag , , , (
2 1
K
t t
Y Y
)
6 t
Y dibandingkan dengan data aktual
Gambar 5.3 : Output network dengan menambahkan satu unit neuron di lapis
tersembunyi dibandingkan dengan data aktual
Gambar 5.4 : Plot runtun waktu inflasi Indonesia, Januari 1999 April 2005
Gambar 5.5 : Plot runtun waktu data jumlah penumpang pesawat internasional
Gambar 5.6 : Plot runtun waktu dari data simulasi
Gambar 5.7 : Arsitektur FFNN-GSTAR(1
1
) dengan satu lapis tersembunyi,
6 unit input, q unit neuron di lapis tersembunyi, dan satu unit
neuron di lapis output
Gambar 5.8 : Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit
input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di
lapis output


xvi
DAFTAR TABEL



Tabel 4.1 : Hasil perbandingan power uji Terasvirta dan uji White pada
keenam model simulasi (1000 kali pengulangan)
Tabel 5.1 : Hasil-hasil penentuan jumlah unit yang optimal di lapis tersem-
bunyi dengan prosedur backward versi Kaashoek dan Van Dijk
Tabel 5.2 : Hasil-hasil penentuan unit input yang optimal dengan prosedur
backward versi Kaashoek dan Van Dijk
Tabel 5.3 : Hasil-hasil penentuan jumlah unit neuron yang optimal di lapis
tersembunyi dengan prosedur forward melalui uji R
2
incremental

Tabel 5.4 : Hasil-hasil penentuan unit input yang optimal dengan prosedur
forward melalui uji R
2
incremental

Tabel 5.5 : Hasil-hasil penentuan jumlah unit di lapis tersembunyi yang
optimal dengan prosedur backward melalui uji Wald
Tabel 5.6 : Ringkasan hasil perbandingan ramalan secara dinamis
Tabel 5.7 : Hasil perbandingan antara kelima model peramalan pada data
training dan testing
Tabel 5.8 : Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data simulasi
Tabel 5.9 : Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data Airline
Tabel 5.10 : Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,
FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak


xvii
INTISARI

FEEDFORWARD NEURAL NETWORKS
UNTUK PEMODELAN RUNTUN WAKTU

oleh
Suhartono

Neural Networks (NN) merupakan salah satu contoh model nonlinear
yang mempunyai bentuk fungsional fleksibel dan mengandung beberapa
parameter yang tidak dapat diinterpretasikan seperti pada model parametrik.
Salah satu bentuk model NN yang banyak digunakan untuk berbagai aplikasi
adalah Feedforward Neural Networks (FFNN). Peramalan data runtun waktu
adalah salah satu bidang dari pemodelan statistik yang sejak awal telah banyak
digunakan untuk aplikasi model NN. Dalam penerapannya, FFNN mengandung
sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model
FFNN yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara
banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang
berimplikasi pada banyaknya parameter yang optimal), merupakan topik sentral
dalam penelitian tentang NN.
Bentuk umum FFNN yang digunakan untuk peramalan runtun waktu
univariat pada penelitian ini adalah FFNN dengan satu lapis tersembunyi dan
satu unit neuron di lapis output. Estimasi parameter (weight) model ini dilakukan
dengan menerapkan algoritma backpropagation pada suatu optimisasi Nonlinear
Least Squares. Dengan menggunakan beberapa teorema asimtotis dan
konvergensi, dapat diturunkan sifat asimtotits estimator yang mengikuti distribusi
normal multivariat asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan
untuk konstruksi uji statistik Wald yang dapat diimplementasikan untuk inferensia
statistik terhadap estimator-estimator model FFNN. Suatu uji statistik baru
melalui besaran kontribusi penambahan atau R
2
incremental
telah dapat dikonstruksi.
Uji ini dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model
Tereduksi, model Lengkap, dan penentuan uji statistik F .
Kontribusi utama hasil penelitian ini adalah diperolehnya dua prosedur
baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan
runtun waktu. Prosedur pertama mengimplementasikan uji statistik F pada
R
2
incremental
dalam skema forward yang dimulai dengan penentuan jumlah unit di
lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.
Prosedur kedua menggunakan kombinasi antara uji statistik F pada R
2
incremental


xviii
dalam skema forward untuk penentuan jumlah unit di lapis tersembunyi dengan
uji Wald dalam skema backward untuk penentuan variabel input yang optimal.
Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja
dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk
peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan
ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang
lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan
hasil yang terbaik. Selain itu, kajian empiris tentang efek pemrosesan awal data
juga telah dilakukan dan menunjukkan bahwa pemilihan metode pemrosesan
awal data yang tepat dapat secara signifikan meningkatkan ketepatan ramalan
FFNN. Pada akhirnya, kajian perbandingan ketepatan ramalan pada kasus
runtun waktu yang multivariat juga telah diperkenalkan. Hasil perbandingan pada
data produksi minyak menunjukkan bahwa FFNN memberikan hasil ramalan
yang lebih baik dibandingkan dengan model GSTAR (Generalized Space-Time
Autoregressive) dan VAR (Vector Autoregressive).

Kata kunci : Feedforward Neural Networks (FFNN), backpropagation, uji Wald,
R
2
incremental
, pemrosesan awal data, runtun waktu, univariat,
multivariat


xix
ABSTRACT

FEEDFORWARD NEURAL NETWORKS
FOR TIME SERIES FORECASTING

by
Suhartono

Neural Networks (NN) is a prominent example of nonlinear model which
has a flexible functional form and contains parameters that have no interpretation
such as in parametric model. Feed forward neural networks (FFNN) is the most
commonly used NN architecture in many fields of application. Time series
forecasting has been an important application of NN from the very beginning. In
the application of FFNN, it contains limited number of parameters (weights). How
to find the best FFNN model, that is, how to find an accurate combination
between number of input variables and neurons in hidden layer (imply the optimal
number of parameters), is a central topic in NN research.
In this paper, the general form of FFNN used for univariate time series
forecasting is FFNN which contains one hidden layer and one unit neuron at the
output layer. Parameters estimation of FFNN model is done by implementing
backpropagation algorithm on the Nonlinear Least Squares optimization.
Asymptotic properties of the estimators that follow asymptotic multivariate normal
distribution can be derived by using some theorems of asymptotic and
convergence. Then, these properties are used to construct Wald test that can be
implemented for statistical inference of FFNN estimators. By using contribution
incremental or R
2
incremental
, the new statistic test has been constructed. This test
contains three main steps of modeling, i.e. Reduced model, Full model, and
determination of F test statistic.
Two new procedures for FFNN model building applied for time series
forecasting are the main contribution of this research. The first procedure
implements F test for R
2
incremental
inference in forward scheme that start from
determination of the number of neurons in hidden layer and then selection of the
optimal inputs. The second procedure uses a combination between F test for
R
2
incremental
inference in forward scheme for determining the number of neurons in
hidden layer and Wald test in backward scheme for selecting the optimal inputs.



xx
The empirical results show that two procedures can work properly for
determining the optimal FFNN architecture that is applied for time series
forecasting. The comparison results between FFNN and other time series models
show that FFNN does not always yield the best forecast. Additionally, the
empirical study about the effect of data preprocessing has been also done and
the result shows that determination of an optimal data preprocessing can
increase significantly the forecast accuracy of FFNN. Finally, the comparison
study between FFNN and other time series models on the multivariate case has
been also conducted. The comparison result by using the oil production data
shows that FFNN yields better forecast than GSTAR (Generalized Space-Time
Autoregressive) and VAR (Vector Autoregressive) models.

Keywords: Feed forward Neural Networks (FFNN), backpropagation, Wald test,
R
2
incremental
, data preprocessing, time series, univariate, multivariate.




- 1 -
BAB I
PENDAHULUAN

1.1 Latar Belakang
Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar
variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan
nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa
dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan
Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam
bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan
ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya
kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi
bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk
diaplikasikan.
Model Neural Networks (NN) merupakan salah satu contoh model
nonlinear yang mempunyai bentuk fungsional fleksibel dan mengandung
beberapa parameter yang tidak dapat diinterpretasikan seperti pada model
parametrik. Penggunaan model NN dalam berbagai bidang terapan secara
umum didasari motivasi hasil matematika yang menyatakan bahwa di bawah
syarat yang tidak terlalu ketat, suatu model NN yang relatif sederhana dapat
digunakan untuk pendekatan semua fungsi Borel yang dapat diukur pada
sebarang derajat akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko
(1989), Funahashi (1989), Hornik dkk. (1989, 1990), dan White (1990).
Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi
adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk
menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,
pattern recognition, signal processing, dan proses kontrol. Sarle (1994)
menyatakan bahwa ada tiga penggunaan utama NN, yaitu :
(1). sebagai suatu model sistem syaraf biologi dan kecerdasan,

Bab I. Pendahuluan

2
(2). sebagai prosesor signal real-time yang adaptif atau pengontrol yang di-
implementasikan dalam hardware untuk suatu terapan seperti robot, dan
(3). sebagai metode analisis data.

Wong dkk. (2000) telah melakukan suatu survei literatur secara lengkap
berkaitan dengan penelitian terapan NN dalam bidang bisnis selama periode
19941998. Survey ini telah mengidentifikasi sebanyak 302 artikel penelitian
terapan NN yang terdistribusikan pada berbagai bidang terapan, yaitu bidang
akuntansi atau auditing, keuangan, sumber daya manusia, sistem informasi,
marketing atau distribusi, dan pada bidang produksi atau riset operasi.
Dalam perkembangannya, model NN juga telah banyak diterapkan pada
bidang kedokteran. Aplikasi NN pada bidang ini antara lain untuk diagnosa
myocardinal infarction (Baxt, 1991; dan Pazos dkk., 1992), klasifikasi signal EEG
(Reddy dan Korrai, 1992), scan PET (Kippenhan dkk., 1992) dan prediksi
mekanisme efek perkembangan obat kanker (Weinstein dkk, 1992). Selain itu,
Somoza dan Somoza (1993) juga telah menerapkan NN pada bidang psikiatri.
Model Feedforward Neural Networks (FFNN) adalah salah satu bentuk
model NN yang dapat dipandang sebagai suatu kelompok model yang sangat
fleksibel yang dapat digunakan untuk berbagai aplikasi. Bentuk khusus model
FFNN yang pendekatan pemetaan nonlinearnya menggunakan jumlahan bobot
kernel-kernel (fungsi aktifasi) Gauss dikenal dengan Radial Basis Function (RBF)
networks. Beberapa referensi berkaitan dengan konsep dan bentuk model FFNN
secara umum dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999).
Sedangkan beberapa artikel khusus tentang model RBF dapat dilihat pada
Broomhead dan Lowe (1988), Moody dan Darken (1989), serta Poggio dan
Girosi (1990).
Secara statistik, model FFNN merupakan suatu bagian dari kelompok
pemodelan yaitu model regresi nonlinear dan model diskriminan. Referensi yang
lengkap berkaitan dengan perbandingan antara beberapa model NN dengan
model-model statistik yang klasik dan modern dapat dilihat pada Cheng dan
Bab I. Pendahuluan

3
Titterington (1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994),
dan beberapa artikel Cherkassky dkk. (1994).
Dalam penerapannya, FFNN mengandung sebanyak parameter (weight)
yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu
bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input
dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya
parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN
yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada
Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan
Marks II (1999).
Secara umum ada dua kelompok teknik atau prosedur yang biasanya
digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu
prosedur yang general-to-specific atau top-down, suatu prosedur yang dimulai
dari model yang besar (komplek) dan kemudian menerapkan suatu algoritma
untuk mereduksi banyaknya parameter (banyaknya unit pada lapis tersembunyi
dan banyaknya variabel input) dengan menggunakan aturan pemberhentian
iterasi tertentu, dan prosedur yang specific-to-general atau bottom-up yaitu
suatu prosedur yang justru dimulai dari model yang sederhana. Dalam beberapa
literatur NN prosedur pertama lebih dikenal dengan istilah "pruning" (Reed, 1993;
Reed dan Marks II, 1999), sedangkan dalam kerangka pemodelan statistik dapat
dipandang sebagai metode backward. Prosedur kedua lebih dikenal dengan
istilah constructive learning dan salah satu yang telah banyak dikenal adalah
cascade correlation (Fahlman dan Lebiere, 1990; Littmann dan Ritter, 1996;
Prechelt, 1997), yang dapat dipandang sebagai suatu metode forward dalam
pemodelan statistik.
Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur pruning
dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan
(R
2
incremental
), analisis komponen utama, dan analisis secara grafik, untuk
mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel
input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White
(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz
Bab I. Pendahuluan

4
Bayesian Information Criteria pada prosedur bottom-up untuk penambahan
banyaknya unit di lapis tersembunyi dan banyaknya input sampai diperoleh
model FFNN yang optimal.
Pada perkembangannya, prosedur statistika inferensia juga diterapkan
dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,
distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan
untuk mendapatkan model FFNN yang optimal. Terasvirta dan Lin (1993) adalah
kelompok peneliti pertama yang mengaplikasikan prosedur statistika inferensia
untuk mendapatkan banyaknya unit di lapis tersembunyi yang optimal pada
model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir tentang
pembentukan model FFNN dengan penggunaan statistika inferensia dapat dilihat
pada Anders dan Korn (1999), dan Medeiros dkk. (2002).
Peramalan data runtun waktu adalah salah satu bidang pemodelan
statistik yang sejak awal telah banyak digunakan untuk aplikasi model NN.
Lapedes dan Farber (1987) merupakan salah satu dari beberapa peneliti
pertama yang menggunakan NN untuk peramalan data runtun waktu.
Selanjutnya, banyak penelitian dilakukan berkaitan dengan prediksi pada data
real runtun waktu; antara lain dapat dilihat pada de Groot dan Wurtz (1991),
Weigend dan Gershenfeld (1993), Swanson dan White (1995), Weigend (1996),
Faraway dan Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab
(2000), Yao dan Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van
Dijk (2001, 2002). Secara umum dari beberapa penelitian yang ada tersebut,
fokus utama yang dibahas adalah bagaimana mendapatkan model NN yang
sesuai untuk suatu data runtun waktu. Isu yang sampai sekarang masih
merupakan pertanyaan terbuka dan banyak peneliti lakukan dalam penerapan
model NN untuk pemodelan runtun waktu adalah dalam rangka menjawab
beberapa pertanyaan berikut :

(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel
input awal sebagai kandidat yang sesuai?
(2). Bagaimana cara menentukan variabel input yang tepat?
Bab I. Pendahuluan

5
(3). Bagaimana cara menentukan jumlah unit yang tepat pada suatu lapis
tersembunyi?
(4). Bagaimana sifat-sifat estimator (parameter-parameter) pada model NN?
(5). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian
suatu model NN?
(6). Apa bentuk pemrosesan awal data yang tepat pada NN?

Berdasarkan permasalahan terbuka yang ada berkaitan dengan model
NN, maka penelitian ini dilakukan dengan tujuan umum untuk mempelajari model
NN dalam kerangka pemodelan statistika. Secara khusus, pemodelan statistika
yang akan dibahas lebih banyak difokuskan pada model runtun waktu univariat.
Sehingga secara umum penelitian ini adalah dalam rangka mengkaji pendekatan
NN untuk analisis runtun waktu.

1.2 Perumusan Masalah
Prosedur Box-Jenkins adalah suatu prosedur standar yang biasanya
digunakan dalam analisis runtun waktu dengan model Autoregressive Integrated
Moving Average atau ARIMA. Pada pemodelan NN, ada banyak prosedur
pembentukan model yang telah diperkenalkan oleh beberapa peneliti terdahulu.
Namun, sampai saat ini belum ada satu prosedur yang diterima sebagai suatu
prosedur standar oleh kalangan peneliti NN, khususnya yang diaplikasikan dalam
analisis runtun waktu.
Dengan demikian, permasalahan utama dalam pembentukan model NN
dalam kerangka pemodelan statistik, khususnya model runtun waktu adalah
masih belum adanya suatu prosedur pembentukan model yang standar untuk
mendapatkan model NN terbaik pada suatu data runtun waktu, yaitu mulai tahap
identifikasi, estimasi parameter dan uji hipotesis yang berkaitan dengan
signifikansi parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian
model melalui suatu kriteria (uji statistik) tertentu. Sehingga masih terbuka luas
untuk dilakukan penelitian lanjut berkaitan dengan model NN dalam kerangka
pemodelan statistik, khususnya model runtun waktu.
Bab I. Pendahuluan

6
Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki
peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model
NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang
standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung
pembentukan prosedur standar tersebut adalah sebagai berikut :
(1). Pengkajian tentang sifat-sifat estimator (parameter atau weight) model
FFNN untuk pemodelan runtun waktu.
(2). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang
tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan
runtun waktu.
(3). Pengkajian dan pengembangan lebih lanjut tentang prosedur pemben-
tukan model FFNN yang optimal (kombinasi yang tepat antara banyaknya
input dan banyaknya unit di lapis tersembunyi) dengan mengimplemen-
tasikan sifat-sifat estimator dan kriteria statistik yang akan diperoleh untuk
pemodelan runtun waktu.

1.3 Batasan Penelitian
Permasalahan yang berkaitan dengan model NN merupakan pertanyaan
terbuka yang begitu luas dan kompleks. Untuk itu dalam penelitian ini perlu
diberikan batasan permasalahan agar penelitian yang akan dikerjakan lebih
fokus sesuai dengan rentang waktu yang direncanakan. Batasan yang diterapkan
pada penelitian disertasi ini yaitu model NN yang dibahas adalah model FFNN
(Feedforward Neural Networks) dengan satu lapis tersembunyi, dan fungsi
aktifasi yang digunakan dalam lapis tersembunyi adalah fungsi logistik sigmoid.
Pemilihan bentuk FFNN ini dimotivasi dari fakta yang menyatakan bahwa bentuk
ini dapat memberikan pendekatan sebarang yang akurat pada sebarang fungsi
dalam berbagai ruang fungsi norm jika dimensi dari ruang bobot adalah cukup
besar (Cybenko, 1989; Funahashi, 1989; Hornik dkk., 1989). Selain itu, per-
bandingan ketepatan ramalan hanya dilakukan dengan model-model runtun
waktu yang linear.
Bab I. Pendahuluan

7
1.4 Tujuan Penelitian
Secara umum penelitian ini terbagi dalam dua kajian, yaitu kajian teori
berkaitan dengan penurunan sifat-sifat estimator (parameter atau weight) model
FFNN dan pengembangan kriteria statistik untuk uji kesesuaian model FFNN,
serta kajian terapan berkaitan dengan implementasi hasil kajian teori untuk
mendapatkan prosedur baru yang diharapkan dapat bekerja optimal untuk
pembentukan model FFNN pada pemodelan runtun waktu. Dengan demikian,
tujuan dari penelitian ini adalah :
A. Kajian Teori
(1). Mengkaji penurunan sifat-sifat estimator yang sesuai untuk parameter-
parameter model FFNN yang diterapkan pada pemodelan runtun
waktu.
(2). Mengembangkan dan mendapatkan statistik uji yang tepat untuk
memvalidasi kesesuaian suatu model FFNN yang diaplikasikan pada
pemodelan runtun waktu.

B. Kajian Terapan
(1). Mengembangkan dan mendapatkan suatu prosedur pembentukan
model FFNN yang optimal dengan mengimplementasikan sifat-sifat
estimator (parameter-parameter) model dan statistik uji yang akan
diperoleh untuk pemodelan runtun waktu.
(2). Membandingkan hasil implementasi model FFNN melalui prosedur
yang dihasilkan dalam penelitian ini dengan hasil-hasil implementasi
model-model statistik standar yang biasanya diaplikasikan untuk
peramalan runtun waktu.

1.5 Tinjauan Pustaka
Secara umum analisis runtun waktu menurut Chatfield (2001) mempunyai
beberapa tujuan, yaitu peramalan, pemodelan, dan kontrol. Peramalan berkaitan
dengan problem pembentukan model dan metode yang dapat digunakan untuk
Bab I. Pendahuluan

8
menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan
suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka
panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan
adalah peramalan lebih cenderung pada suatu model yang black-box untuk
mendapatkan ramalan, sedangkan pemodelan cenderung pada model yang
dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi berkaitan
dengan hubungan antar variabel pada suatu data runtun waktu. Sedangkan
tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya signal
processing.
Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,
diawali oleh Yule (1927) yang memperkenalkan model autoregresi linear (AR)
untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan
dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,
sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya
kelas model linear Autoregressive Integrated Moving Average (ARIMA). Box dan
Jenkins (1976) mengembangkan suatu prosedur yang lengkap untuk metodologi
model ARIMA yang sampai sekarang digunakan sebagai prosedur standar dalam
pembentukan model runtun waktu linear. Beberapa literatur yang banyak
membahas model ARIMA ini dapat dilihat pada Cryer (1986), Wei (1990) dan
Box dkk. (1994). Selain itu, sifat-sifat yang berkaitan dengan teori statistik untuk
model ARIMA juga telah banyak dianalisis dan dikembangkan oleh beberapa
peneliti, antara lain telah dilakukan oleh Brockwell dan Davis (1991).
Dalam perkembangan analisis runtun waktu, telah banyak diketahui
bahwa banyak fenomena yang menarik dan sederhana seringkali merupakan
fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat
ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang
linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut. Sebagai
konsekuensinya, model-model runtun waktu nonlinear telah menjadi fokus
perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.
Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada
beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini
Bab I. Pendahuluan

9
dapat ditemukan di Tong (1990), Priestley (1991), Lee dkk. (1993), serta Granger
dan Terasvirta (1993).

1.5.1 Konsep Dasar pada Analisis Runtun waktu
Pada bagian ini akan dijelaskan secara ringkas beberapa konsep dasar
pada analisis runtun waktu, berkaitan dengan ide dasar dan beberapa definisi
yang sering digunakan. Secara lebih lengkap hal ini dapat dilihat pada Brockwell
dan Davis (1991).
Runtun waktu adalah suatu deret (barisan) dari pengamatan
t
Y pada
suatu variabel Y , yang tiap-tiap pengamatan dicatat pada suatu waktu tertentu
T t . Dalam hal ini T adalah himpunan dari waktu dimana pengamatan-
pengamatan tersebut dilakukan. Jika T adalah suatu himpunan yang diskrit,
maka } , { T t Y
t
adalah suatu runtun waktu yang diskrit. } , { T t Y
t
merupakan
notasi keseluruhan suatu runtun waktu, dimana
t
Y adalah pengamatan dari
} , { T t Y
t
pada waktu ke t . Pada kasus runtun waktu yang diskrit, pengamatan-
pengamatan biasanya diambil pada interval waktu yang sama. Dalam hal ini axis
waktu T diasumsikan sama dengan = {0,1,2,}, sehingga secara umum untuk
axis waktu T adalah sama dengan = {0,t1,t2,}.
Pendekatan statistik pada analisis runtun waktu dilakukan dengan
menggunakan model-model statistik untuk menjelaskan perilaku dinamis dari
suatu runtun waktu. Hal ini mengasumsikan bahwa suatu runtun waktu di-
bangkitkan dari suatu mekanisme atau model yang stokastik, yang biasanya
didefinisikan dengan suatu persamaan beda yang stokastik. Persamaan beda
yang stokastik terdiri dari suatu persamaan dan beberapa kondisi awal. Hasil
atau solusi dari model ini adalah suatu proses stokastik, yaitu suatu barisan dari
variabel random } {
t
Y yang didefinisikan pada ruang probabilitas (,,). Untuk
tertentu, ) (
t
Y disebut suatu realisasi (sample path atau trajectory) dari
} {
t
Y . Setiap pengamatan ) (
t
Y adalah suatu nilai realisasi dari variabel random
t
Y yang nilai-nilainya diperoleh dalam ruang Euclidean d-dimensi
d
.


Bab I. Pendahuluan

10
Contoh 1.5.1. Diberikan suatu model linear AR orde pertama
t t t
Y Y +
1 1
, ,..., 2 , 1 t (1.5.1)
dan
0
Y adalah suatu variabel random yang merepresentasikan kondisi awal.
Dalam hal ini } {
t
adalah suatu barisan yang terdistribusikan secara identik dan
independen (IID) dari variabel random yang merepresentasikan gangguan atau
error atau disturbance terms. Penyelesaian } {
t
Y dari persamaan (1.5.1) adalah
suatu proses stokastik


+
1
0
1 0 1
t
t
i t
t t
t
Y Y , ,... 2 , 1 t . (1.5.2)
Sifat penting untuk analisis runtun waktu adalah proses-proses (stokastik)
tersebut merupakan proses yang stasioner, yaitu fungsi-fungsi distribusinya
secara keseluruhan adalah independen terhadap waktu. Definisi-definisi berikut
berkaitan dengan proses stokastik yang stasioner.
Definisi 1.5.1. (Brockwell dan Davis, 1991) Suatu proses } {
t
Y dikatakan
stasioner kuat jika ) ,..., , (
2 1

k
t t t
Y Y Y dan ) ,..., , (
2 1

+ + + h t h t h t
k
Y Y Y mempunyai
fungsi distribusi bersama yang sama untuk semua bilangan bulat 1 h dan untuk
semua h t t t
k
, ,..., ,
2 1
.
Proses-proses dengan momen pertama dan kedua yang independen
terhadap waktu juga menjadi perhatian dalam analisis runtun waktu. Definisi-
definisi berikut berkaitan dengan konsep stasioner lemah atau stasioner sampai
orde kedua.
Definisi 1.5.2. (Brockwell dan Davis, 1991) Jika diberikan } {
t
Y adalah suatu
proses dengan
2
t
Y < untuk setiap t , maka } {
t
Y dikatakan stasioner
lemah (weakly stationary) jika ) (
t
Y untuk semua t dan
) , ( ) , (
h s h r s r
Y Y Cov Y Y Cov
+ +
untuk semua h s r , , .
Definisi 1.5.3. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses yang
stasioner lemah (weakly stationary), maka fungsi autokovarians ) (
Y
dari } {
t
Y
didefinisikan sebagai ) , ( ) (
h t t Y
Y Y Cov h
+
untuk semua h t, .
Bab I. Pendahuluan

11
Nilai-nilai kesalahan ramalan atau error } {
t
dari suatu model runtun
waktu biasanya diasumsikan sebagai suatu barisan dari variabel random yang
IID. Ketika yang menjadi perhatian adalah proses yang stasioner lemah, nilai-nilai
kesalahan ramalan } {
t
biasanya menggambarkan perilaku white noise dari
sudut pandang orde dua.
Definisi 1.5.4. (Brockwell dan Davis, 1991) Suatu proses } {
t
dikatakan white
noise dengan mean 0 dan varians
2
, ditulis ) , 0 ( WN ~ } {
2

t
, jika dan hanya
jika } {
t
mempunyai mean nol dan fungsi autokovarians

'

. jika
jika
0 0
, 0
) (
2
h
h
h



1.5.2 Neural Networks untuk Analisis Runtun waktu
Sejak McCulloch dan Pitts (1943) memperkenalkan suatu model
sederhana dari suatu syaraf nyata dalam otak manusia seperti suatu unit
threshold biner, banyak aktivitas dalam bidang NN yang telah dilakukan dan
dikembangkan. Pada awalnya, NN didesain untuk memodelkan bentuk arsitektur
syaraf pada otak manusia. Penelitian-penelitian pada saat ini secara luas banyak
dilakukan dan dimotivasi oleh adanya kemungkinan menggunakan NN sebagai
suatu instrumen untuk menyelesaikan berbagai permasalahan aplikasi seperti
pattern recognition, signal processing, process control dan peramalan runtun
waktu.
Pada dasarnya, NN merupakan suatu kumpulan dari elemen-elemen
pemroses yang saling berhubungan, yang disebut dengan unit-unit atau syaraf-
syaraf. Frase NN mempunyai arti yang luas dan bervariasi pada bidang-bidang
penelitian yang berbeda, hal ini dapat dilihat pada Bishop (1995). Dalam
penelitian disertasi ini, NN dipandang sebagai suatu obyek matematika atau
secara khusus sebagai suatu model statistik untuk runtun waktu.
Multi-Layer Perceptrons (MLP) yang juga dikenal dengan feedforward
atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang
Bab I. Pendahuluan

12
secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau
rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu dan signal
processing adalah berdasarkan pada arsitektur MLP atau FFNN.
MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-
fungsi nonlinear. Secara umum, model ini bekerja dengan menerima suatu vektor
dari input-input X dan kemudian menghitung suatu respon atau output ) (X Y
dengan memproses (propagating) X melalui elemen-elemen proses yang saling
terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan data,
X, mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam tiap-tiap
lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh elemen-
elemen proses dan kemudian diproses maju ke lapis berikutnya. Akhirnya, nilai-
nilai output ) (X Y , yang dapat berupa nilai-nilai skalar atau vektor, dihitung pada
lapis output.
Gambar 1.1 adalah suatu contoh bentuk khusus MLP dengan satu lapis
tersembunyi (hidden layer) yang lebih dikenal dengan FFNN dengan satu lapis
tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu
1
X ,
2
X dan
3
X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi , dan satu
unit output dengan fungsi aktifasi linear.
Dalam arsitektur ini, nilai-nilai respon atau output ) (X Y dihitung dengan


+ +
H
j
I
i
i ji j j
Y
1 1
0 0
) ( ) ( X X (1.5.3)
dengan ) ,..., , ,..., , (
10 1 0 HI H
adalah besaran-besaran bobot (network
weights) atau parameter-parameter MLP. Bentuk nonlinear dari fungsi ) (X Y
terjadi melalui suatu fungsi yang disebut fungsi aktifasi , yang biasanya fungsi
yang halus atau smooth seperti fungsi logistik sigmoid
Z
e
Z

1
1
) ( . (1.5.4)
Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear
pada lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini
dimotivasi dari fakta yang menyatakan bahwa bentuk ini dapat memberikan
Bab I. Pendahuluan

13
pendekatan sebarang yang akurat pada sebarang fungsi dalam berbagai ruang
fungsi norm jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989;
Funahashi, 1989; Hornik dkk., 1989).


Gambar 1.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input,
empat unit neuron di lapis tersembunyi, dan satu unit output
dengan fungsi aktifasi linear pada lapis output.

Salah satu bidang yang banyak digunakan untuk aplikasi model NN
adalah peramalan suatu data runtun waktu. Lapedes dan Farber (1987) adalah
bagian dari sekelompok peneliti yang mula-mula menerapkan model NN untuk
menganalisis data runtun waktu, yaitu peramalan dari signal nonlinear yang
dibangkitkan dengan komputer. Dalam perkembangan selanjutnya, model NN
telah banyak digunakan untuk prediksi atau peramalan data runtun waktu yang
real, antara lain Weigend dkk. (1990), de Groot dan Wurtz (1991), Tang dkk.
(1991), Weigend dan Gershenfeld (1993), Swanson dan White (1995), Hill dkk.
(1996), Weigend (1996), Faraway dan Chatfield (1998), Lisi dan Schiavo (1999),
Motiwalla dan Wahab (2000), Yao dan Tan (2000), Leung dkk. (2000), Kaashoek
dan Van Dijk (2001, 2002), serta Leung dan Chan (2003). Selain itu, aplikasi
model NN untuk analisis runtun waktu, terutama bidang ekonometrik runtun
Bab I. Pendahuluan

14
waktu, juga mendorong perkembangan beberapa tes untuk uji nonlinearitas
(White, 1989c; Lee dkk., 1993; Terasvirta dkk., 1993).
Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan
dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis
tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon
atau target,
i t
Y

, dalam himpunan input. Hal ini dapat diperoleh dengan
mengganti ) ,..., (
1

p t t
Y Y X dalam persamaan (1.5.3). Bentuk ini selanjutnya
dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik
untuk 3 lag sebagai input dapat dilihat seperti Gambar 1.2. Secara umum bentuk
arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana
bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian
masa lalu ) ,..., (
1

p t t
Y Y ke kejadian masa sekarang
t
Y adalah nonlinear,
sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali
model AR-NN ini disebut juga dengan model autoregresi yang nonlinear
(Faraway dan Chatfield, 1998).
Dalam perkembangan selanjutnya, arsitektur yang lebih fleksibel telah
pula diperkenalkan dan dikembangkan untuk aplikasi NN pada analisis runtun
waktu, yaitu arsitektur yang mengandung variabel recurrent. Pada arsitektur ini,
selain himpunan beberapa lag variabel respon atau target sebagai input, juga
melibatkan lag-lag dari selisih prediksi target dengan nilai aktual target atau yang
dikenal dengan lag-lag error. Bentuk model semacam ini selanjutnya dikenal
dengan model ARMA-RNN atau Autoregressive Moving Average Recurrent
Neural Networks. Beberapa artikel berkaitan dengan bentuk model NN yang
mengandung unsur recurrent ini dapat dilihat pada Jordan (1986), Elman (1990),
serta Connor dkk. (1992, 1994).
Model NN adalah model yang dalam penerapannya mengandung
sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model NN
yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara
banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang
berimplikasi pada banyaknya parameter yang optimal) adalah topik sentral yang
banyak menjadi fokus bahasan dalam beberapa literatur NN.
Bab I. Pendahuluan

15



Gambar 1.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel
dependen sebagai input (
3 2 1
, ,
t t t
Y Y Y ), empat unit neuron di
lapis tersembunyi, dan satu unit output (
t
Y ) dengan fungsi aktifasi
linear pada lapis output.

Kontribusi utama disertasi ini adalah diperolehnya dua prosedur baru
untuk pembentukan model FFNN yang diaplikasikan untuk peramalan runtun
waktu. Prosedur pertama mengimpementasikan uji statistik F pada R
2
incremental

dalam skema forward yang dimulai dengan penentuan banyaknya unit di lapis
tersembunyi dan dilanjutkan penentuan variabel input yang optimal. Prosedur
kedua menggunakan kombinasi antara uji R
2
incremental
dalam skema forward untuk
penentuan banyaknya unit di lapis tersembunyi dengan uji Wald dalam skema
backward untuk penentuan variabel input yang optimal. Hasil-hasil ini dapat
dipandang sebagai pengembangan dari prosedur yang diperkenalkan oleh
Kaashoek dan Van Dijk (2002).
Dalam disertasi ini, pembentukan dua prosedur baru tersebut diperoleh
berdasarkan hasil-hasil teoritis berupa teorema tentang uji statistik Wald dan uji
R
2
incremental
. Secara empiris dapat ditunjukkan bahwa kedua prosedur baru ini
Bab I. Pendahuluan

16
dapat bekerja dengan baik dalam menentukan arsitektur FFNN terbaik pada
suatu data runtun waktu. Selain itu, kedua prosedur ini juga terbukti memberikan
tahapan pembentukan model yang lebih efisien dibanding yang diusulkan oleh
Kaashoek dan Van Dijk (2002).
Hasil-hasil empiris berkaitan dengan perbandingan ketepatan ramalan
antara model FFNN dengan model-model runtun waktu yang lain menunjukkan
bahwa FFNN dengan cara pemrosesan awal yang tepat cenderung memberikan
hasil yang lebih baik dibanding model-model runtun waktu klasik. Selain itu,
kajian tentang efek pemrosesan awal data juga menunjukkan bahwa pemilihan
metode pemrosesan awal data yang tepat dapat secara signifikan meningkatkan
ketepatan ramalan FFNN.
Pada akhirnya, dalam disertasi ini juga diberikan hasil-hasil kajian
perbandingan ketepatan ramalan pada kasus runtun waktu yang multivariat.
Sebagi tambahan, hasil kajian teoritis terhadap model GSTAR memberikan dua
kontribusi utama, yaitu telah diperoleh suatu metode baru untuk penentuan bobot
lokasi yang optimal pada model GSTAR(1
1
) yang terbukti lebih baik dibanding
metode yang lain, dan counter example dari teorema tentang kondisi stasioner
pada model GSTAR(1
1
) yang diperkenalkan oleh Borovkova dkk. (2002).

1.5.3 Outline Disertasi
Disertasi ini terdiri atas enam bab bahasan. Bab I berisi tentang
pendahuluan, yang mencakup tentang latar belakang, permasalahan, dan tujuan
penelitian. Bab II membahas secara ringkas tentang model ARIMA yang
merupakan model linear yang paling banyak digunakan dalam peramalan runtun
waktu. Pada Bab III disajikan bagian pertama inti disertasi yaitu tentang estimasi
parameter model FFNN, sifat-sifat asimtotis estimator model FFNN, dan
penjabaran konstruksi teorema untuk uji Wald yang dapat digunakan untuk
proses inferensi terhadap estimator model FFNN.
Bab IV merupakan bagian kedua inti disertasi yang berisi tentang
penjabaran konstruksi teorema untuk uji terhadap kontribusi penambahan atau
Bab I. Pendahuluan

17
R
2
incremental
. Selanjutnya, dalam bab ini juga dibahas dua prosedur baru untuk
pembentukan model FFNN pada peramalan runtun waktu yang merupakan
kontribusi utama dari disertasi.
Hasil-hasil empiris yang berkaitan dengan implementasi dua prosedur
baru pada data simulasi disajikan dalam Bab V. Pada bab ini juga diberikan hasil-
hasil empiris lainnya, yaitu hasil perbandingan ketepatan ramalan antara model
FFNN dan model-model runtun waktu klasik, hasil kajian efek pemrosesan awal
data pada runtun waktu yang mengandung pola tren dan musiman, serta hasil
perbandingan pada kasus runtun waktu yang multivariat. Pada akhirnya,
kesimpulan dan masalah terbuka diberikan dalam Bab VI.


- 18 -
BAB II
ANALISIS RUNTUN WAKTU

Secara umum ada dua pendekatan utama dalam metode peramalan,
yaitu pendekatan sebab akibat (kausal) dan pendekatan runtun waktu. Bagian ini
fokus hanya menjelaskan peramalan dengan pendekatan runtun waktu atau yang
lebih dikenal dengan analisis runtun waktu, khususnya tentang proses ARMA.
Pembahasan dilakukan pada aspek teori dan penurunan estimasi parameter,
sifat-sifat estimator, dan sifat normalitas asimtotis dari estimator model ARMA.
Suatu kelas yang luas dari proses yang stasioner dapat dibangkitkan
dengan menggunakan white noise dalam suatu himpunan dari persamaan beda
linear. Hal ini mendorong suatu gagasan tentang suatu proses autoregressive-
moving average atau ARMA.

2.1 Proses ARMA (Autoregressive-Moving Average)
Pada bagian ini akan diberikan dan dijelaskan beberapa definisi, proposisi
dan teorema berkaitan dengan proses ARMA. Penjelasan secara lengkap dan
komprehensif dari teori tentang proses ARMA ini dapat dilihat pada Brockwell
dan Davis (1991).
Definisi 2.1.1. (Brockwell dan Davis 1991, Proses ARMA(p,q)). Suatu proses
} , 2 , 1 , 0 , { K t t t Y
t
disebut proses ARMA(p,q) jika } {
t
Y adalah stasioner dan
jika untuk setiap t ,
q t q t t p t p t t
Y Y Y

+ + + L L
1 1 1 1
, (2.1.1)
dengan ) , 0 ( WN ~ } {
2

t
. } {
t
Y disebut suatu proses ARMA(p,q) dengan mean
jika } {
t
Y adalah suatu proses ARMA(p,q).
Persamaan (2.1.1) dapat ditulis secara simbolik dalam bentuk yang lebih
compact, yaitu
t t
B Y B ) ( ) ( , (2.1.2)
Bab II. Analisis Runtun Waktu 19

dengan dan adalah polinomial derajat p dan q, yaitu
p
p
z z z L
1
1 ) ( (2.1.3)
dan
q
q
z z z + + + L
1
1 ) ( (2.1.4)
dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan
dengan
j t t
j
Y Y B

, K , 2 , 1 , 0 t t j . (2.1.5)
Berikut ini adalah definisi dari konsep kausalitas (causality) untuk suatu
proses ARMA(p,q) yang umum.
Definisi 2.1.2. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang
didefinisikan dengan persamaan
t t
B Y B ) ( ) ( disebut suatu kausal (atau
secara lebih spesifik adalah suatu fungsi kausal dari } {
t
) jika terdapat suatu
barisan dari konstanta-konstanta } {
j
sedemikian hingga

<
0
| |
j j
dan

0 j
j t j t
Y , K , 2 , 1 , 0 t t t . (2.1.6)
Proposisi berikut ini memperjelas arti dari penjumlahan yang tertulis pada
persamaan (2.1.6).
Proposisi 2.1.1. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah sembarang
barisan dari variabel random sedemikian hingga < | | sup
t t
Y E , dan jika


<
j j
| | , maka deret





j
j t j
j
t
j
j t
Y Y B Y B ) ( , (2.1.7)
konvergen secara absolut dengan probabilitas satu. Jika dalam penjumlahan
<
2
| | sup
t t
Y E maka deret (series) itu konvergen dalam mean square pada
batas yang sama.
Bab II. Analisis Runtun Waktu 20

Proposisi 2.1.2. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses
yang stasioner dengan fungsi autokovarians ) ( dan jika


<
j j
| | ,
maka untuk setiap t , series (2.1.7) konvergen secara absolut dengan
probabilitas satu dan dalam mean square pada batas yang sama. Jika
t t
Y B Z ) (
maka proses } {
t
Z adalah stasioner dengan fungsi autokovarians


+
k j
k j Z
k j h h
,
) ( ) ( .
Teorema berikut ini memberikan syarat perlu dan cukup (necessary and
sufficient conditions) untuk suatu proses ARMA(p,q) adalah suatu kausal.
Teorema ini juga memberikan representasi eksplisit dari
t
Y yang dinyatakan
dalam } , { t s
s
.
Teorema 2.1.1. (Brockwell dan Davis, 1991) Misalkan } {
t
Y adalah suatu proses
ARMA(p,q) dengan polinomial ) ( dan ) ( tidak mempunyai pembuat nol yang
sama. } {
t
Y adalah kausal jika dan hanya jika 0 ) ( z untuk semua z
sedemikian hingga 1 | | z . Koefisien-koefisien } {
j
dalam (2.1.6) ditentukan
oleh hubungan
) ( / ) ( ) (
0
z z z z
j
j
j

, 1 | | z . (2.1.8)
Selanjutnya, akan diperkenalkan dan dijelaskan konsep lain yang
berkaitan erat dengan kausalitas, yaitu konsep dapat dibalik (invertibility).
Definisi 2.1.3. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang
didefinisikan dengan persamaan
t t
B Y B ) ( ) ( disebut dapat dibalik
(invertible) jika terdapat suatu barisan dari konstanta-konstanta } {
j
sedemikian
hingga

<
0
| |
j j
dan

0 j
j t j t
Y , K , 2 , 1 , 0 t t t . (2.1.9)
Bab II. Analisis Runtun Waktu 21

Seperti halnya kausalitas, sifat dapat dibalik (invertibility) bukanlah suatu
sifat dari proses } {
t
Y sendiri, tetapi merupakan hubungan antara dua proses
} {
t
Y dan } {
t
yang terlihat dalam persamaan ARMA yang didefinisikan.
Teorema berikut ini memberikan syarat perlu dan cukup untuk invertibility dan
spesifikasi koefisien-koefisien
j
dalam representasi (2.1.9).
Teorema 2.1.2. (Brockwell dan Davis, 1991) Misalkan } {
t
Y adalah suatu proses
ARMA(p,q) dengan polinomial ) ( dan ) ( tidak mempunyai pembuat nol yang
sama. } {
t
Y adalah invertible jika dan hanya jika 0 ) ( z untuk semua z
sedemikian hingga 1 | | z . Koefisien-koefisien } {
j
dalam (2.1.9) ditentukan
oleh hubungan
) ( / ) ( ) (
0
z z z z
j
j
j

, 1 | | z . (2.1.10)
Teorema 2.1.3. (Brockwell dan Davis, 1991) Jika 0 ) ( z untuk semua z
sedemikian hingga 1 | | z , maka suatu persamaan ARMA(p,q),
t t
B Y B ) ( ) ( , mempunyai suatu penyelesaian tunggal,

j
j t j t
Y , (2.1.11)
dengan koefisien-koefisien
j
adalah ditentukan sebagai
) ( ) ( ) (
1
z z z z
j
j
j

, r z r < <

| |
1
. (2.1.12)

Berikut adalah pengembangan bentuk proses MA(q) yang dijelaskan
sebelumnya dengan memperhitungkan q adalah tak berhingga.
Definisi 2.1.4. (Brockwell dan Davis, 1991) Jika ) , 0 ( WN ~ } {
2

t
maka dikata-
kan bahwa } {
t
Y adalah suatu moving average (MA( )) dari } {
t
jika terdapat
suatu barisan } {
j
dengan

<
0
| |
j j
sedemikian hingga
j t
j
j t
Y


0
, K , 2 , 1 , 0 t t t . (2.1.13)
Bab II. Analisis Runtun Waktu 22

Proposisi 2.1.3. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses
yang stasioner dengan mean nol dan fungsi autokovarians ) ( sedemikian
hingga 0 ) ( h untuk q h > | | dan 0 ) ( q , maka } {
t
Y adalah suatu proses
MA(q), yaitu terdapat suatu proses white noise } {
t
sedemikian hingga
q t q t t t
Y

+ + + L
1 1
. (2.1.14)
Berikut ini adalah teorema tentang fungsi autokovarians dari proses
MA( ) sebagai konsekuensi dari Proposisi 2.1.2.
Teorema 2.1.3. (Brockwell dan Davis, 1991) Suatu proses MA( ) yang di-
definisikan pada (2.1.13) adalah stasioner dengan mean nol dan fungsi
autokovarians

0
| |
2
) (
j
k t j
k . (2.1.15)

2.2 Estimasi Parameter Model ARMA
Penentuan model ARMA(p,q) yang sesuai untuk merepresentasikan
suatu pengamatan runtun waktu yang stasioner melibatkan suatu permasalahan-
permasalahan yang saling terkait. Secara umum hal ini mencakup pemilihan orde
p dan q pada tahap identifikasi, estimasi parameter-parameter yaitu mean,
koefisien-koefisien ) , , 2 , 1 ; , , 2 , 1 : , ( q j p i
j i
K K dan varians yang white
noise
2
, dan cek diagnosa beberapa asumsi yang harus dipenuhi untuk
kesesuaian model.
Bagian ini fokus akan menjelaskan beberapa metode estimasi parameter
dalam model ARMA(p,q) beserta sifat-sifat estimator tersebut, yaitu estimator
Yule-Walker, Least Squares, dan Maximum Likelihood.

2.2.1 Estimasi Yule-Walker
Misalkan } {
t
Y adalah suatu proses autoregressive kausal dengan mean
nol,
t p t p t t
Y Y Y

L
1
, ) , 0 ( WN ~ } {
2

t
. (2.2.1)
Bab II. Analisis Runtun Waktu 23

Tujuan dari estimasi ini adalah untuk mendapatkan estimator-estimator dari
vektor koefisien ) , , , (
2 1

p
K dan suatu varians yang white noise
2

berdasarkan pada pengamatan-pengamatan
n
Y Y Y , , ,
2 1
K .
Asumsi kausalitas memberikan penulisan
t
Y dalam bentuk
j t
j
j t
Y


0
, (2.2.2)
dengan menggunakan Teorema 2.1.1,


0
), ( / 1
j
j
j
z z 1 | | z . Melalui
perkalian kedua sisi (2.2.1) dengan p j Y
j t
, , 1 , 0 , K

, penerapan ekspektasi,
dan penggunaan (2.2.2) untuk mengevaluasi sisi sebelah kanan, diperoleh
persamaan Yule-Walker,
p p
, (2.2.3)
dan
p
) 0 (
2
, (2.2.4)
dengan
p
ialah matrik kovarians
p
j i
j i
1 ,
)] ( [

dan ) ) ( , ), 2 ( ), 1 ( ( p
p
K .
Persamaan-persamaan ini dapat digunakan untuk menentukan ) ( , ), 0 ( p K
dari
2
dan .
Di sisi lain, jika kovarians p j j , , 0 ), ( K , seperti yang terlihat pada
(2.2.3) dan (2.2.4), dengan memperhatikan kovarians sampel ) ( j , diperoleh
suatu himpunan persamaan-persamaan untuk estimator Yule-Walker

dan
2

dari dan
2
, yaitu
p p


, (2.2.5)
dan
p
) 0 (
2
, (2.2.6)
dengan
p
j i p
j i
1 ,
)] ( [

dan ) ) ( , ), 2 ( ), 1 ( ( p
p
K .
Jika 0 ) 0 ( > , maka
p

adalah non-singular. Bagi kedua sisi dari (2.2.5)


dengan ) 0 ( , sehingga diperoleh
p p
R

1
, (2.2.7)
Bab II. Analisis Runtun Waktu 24

dan
]

1 )[ 0 (
1 2
p p p
R

, (2.2.8)
dengan ) 0 ( / ) ) ( , ), 1 ( (
p p
p K .
Melalui

seperti yang didefinisikan pada (2.2.7), dapat ditunjukkan


bahwa 1

1
1

p
p
z z L untuk 1 | | z . Dengan demikian, model yang
ditaksir, yaitu
t p t p t t
Y Y Y


1
L , ) , 0 ( WN ~ } {
2

t
. (2.2.9)
adalah kausal. Autokovarians p h h
F
, , 0 ), ( K dari model yang ditaksir harus
memenuhi 1 + p persamaan linear

'


. 0 ,
, , , 1 , 0
) (

) 1 (

) (
2 1
h
p h
p h h h
F p F F


K
L

2.2.2 Estimasi Maximum Likelihood dan Least Squares
Misalkan } {
t
Y adalah suatu proses ARMA(p,q) yang kausal, yaitu
q t q t t p t p t t
Y Y Y

+ + + + + + L L
1 1 0 1 1
, } {
t
) , 0 ( WN
2
(2.2.10)
dengan 1
0
. Dalam hal ini } {
t
Y diasumsikan sebagai suatu proses Gaussian
dengan mean nol dan fungsi kovarians ) ( ) , (
j i
Y Y E j i . Misalkan
) , , (
1

n n
Y Y K , )

, ,

1

n n
Y Y K dengan 0

1
Y dan ) , , | (

1 1

j j j
Y Y Y E Y K
j
Y Y SP
Y P
j
} , , {
1 1

K
2 , j . Misalkan pula
n
menyatakan matriks kovarians,
) (
n n n
E , dan asumsikan bahwa
n
adalah non-singular.
Fungsi likelihood dari
n
adalah
) exp( ) (det ) 2 ( ) (
1
2
1
2 / 1 2 /
n n n n
n
n
L

. (2.2.11)
Perhitungan langsung untuk
n
dan
1
n
dapat dihindari dengan menya-
takannya dalam prediktor-prediktor satu step
j
Y

, dan mean squared error nya


n j v
j
, , 1 ,
1
K

, yang kedua hal ini secara mudah dapat dihitung secara rekursif
dari algoritma inovasi seperti pada proposisi berikut.
Bab II. Analisis Runtun Waktu 25

Proposisi 2.2.1. (Brockwell dan Davis 1991, The Innovations Algorithm atau
Algoritma Inovasi). Jika } {
t
Y mempunyai mean nol dan ) , ( ) ( j i Y Y E
j i
, dengan
matriks
n
j i
j i
1 ,
)] , ( [

adalah non-singular untuk tiap-tiap K , 2 , 1 n , maka
prediktor-prediktor satu step 0 ,

1

+
n Y
n
, dan mean squared errornya 1 , n v
n
,
adalah

'

+ +
+
, 1 jika )

(
, 0 jika 0

1
1 1
1
n Y Y
n
Y
n
j
j n j n nj
n

(2.2.12)
dan

Dengan menerapkan Proposisi 2.2.1 ini, pada akhirnya akan diperoleh




n
j
j j j n n n n n n n
v Y Y D
1
1
2 1 1
/ )

( )

( )

( , (2.2.14)
dan
1 1 0
2
) (det ) (det det


n n
v v v D C L , (2.2.15)
dengan
1
0 , ,
] [

n
j i j i i
C dan ) , , , ( diag
1 1 0

n
v v v D K . Sehingga, fungsi likelihood
(2.2.11) dari vektor
n
tereduksi menjadi

'

n
j
j j j n
n
n
v Y Y v v L
1
1
2 2 / 1
1 0
2 /
/ )

(
2
1
exp ) ( ) 2 ( ) ( K . (2.2.16)
Melalui prediksi secara rekursi dapat ditunjukkan bahwa prediktor-
prediktor satu step
1

+ i
Y dan mean squared error nya adalah

'

+ + +
<

+ + + +

+ + +
, ),

), , max( 1 ),

1
1 1 1 1 1
1
1 1 1
m i Y Y Y Y Y
q p m i Y Y Y
q
j
j i j i ij p i p i i
i
j
j i j i ij i
L

(2.2.13)
(2.2.17)
Bab II. Analisis Runtun Waktu 26

dan
, )

(
2 2
1 1 i i i
r Y Y E
+ +
(2.2.17)
dengan
ij
dan
i
r diperoleh dengan mengaplikasikan Proposisi 2.2.2 ke dalam
fungsi kovarians. Substitusikan hasil ini ke dalam pernyataan umum (2.2.16),
diperoleh fungsi likelihood Gaussian dari vektor-vektor observasi
) , , (
1

n n
Y Y K yaitu
1
]
1

n
j
j j j n
n
r Y Y r r L
1
1
2 2
2
1
2 / 1
1 0
2 / 2 2
/ )

( exp ) ( ) 2 ( ) , , ( K , (2.2.19)
dengan ) , , (
1

p
K dan ) , , (
1

q
K .
Penurunan secara parsial ) , , ( ln
2
L terhadap
2
, dan catatan
bahwa
j
Y

dan
j
r adalah independen terhadap
2
, akan menghasilkan estimator
maximum likelihood

dan
2
yang memenuhi
)

(
1 2
S n

, (2.2.20)
dengan



n
j
j j j
r Y Y S
1
1
2
/ )

( )

( , (2.2.21)
dan

adalah nilai-nilai dari , yang meminimumkan



+
n
j
j
r n S n l
1
1
1 1
ln )) , ( ln( ) , ( . (2.2.22)
Dalam hal ini, ) , ( l adalah fungsi likelihood yang tereduksi atau reduced
likelihood.
Prosedur estimasi alternatif adalah dengan cara meminimumkan jumlah
kuadrat terboboti



n
j
j j j
r Y Y S
1
1
2
/ )

( ) , ( , (2.2.23)
terhadap dan . Estimator-estimator yang diperoleh melalui cara demikian
disebut dengan estimator least squares
~
dan
~
dari dan .
Bagaimanapun, untuk proses minimisasi ) , ( S adalah penting untuk tidak
Bab II. Analisis Runtun Waktu 27

hanya membatasi harus kausal, tetapi juga membatasi harus dapat dibalik
(invertible). Jika

n
j
j
r n
1
1
1
ln adalah secara asimtotis dapat diabaikan jika
dibandingkan dengan ) , ( ln S , seperti dalam kasus ketika adalah dibatasi
harus invertible (karena 1
n
r ), maka dari (2.2.22), minimisasi S adalah
ekuivalen dengan minimisasi l dan estimator-estimator least squares dan
maximum likelihood akan mempunyai sifat-sifat asimtotis yang sama.

2.3 Teori Asimtotis
Penurunan distribusi dari berbagai statistik yang digunakan untuk
estimasi parameter dari data adalah hal yang penting agar dapat melakukan
inferensia statistik pada runtun waktu. Bagian ini menjelaskan berbagai definisi,
proposisi dan teorema dari teori asimtotis yang banyak digunakan dalam runtun
waktu. Pembahasan secara komprehensif dari teori asimtotis ini dapat pula
dilihat pada Serfling (1980), Billingsley (1979; Chapter 5), Brockwell dan Davis
(1991; Chapter 6), serta White (1999).
Berikut ini adalah beberapa konsep dasar tentang definisi yang berkaitan
dengan limits yang digunakan sebagai dasar untuk mengevaluasi konvergensi
atau sifat asimtotis dari suatu estimator.
Definisi 2.3.1. (White, 1999) Misalkan } {
n
b adalah suatu barisan bilangan real.
Jika ada suatu bilangan real b dan jika untuk setiap bilangan real 0 > ada
suatu bilangan bulat ) ( N sedemikan hingga untuk semua ) ( N n ,
< | | b b
n
, maka b merupakan limit dari barisan } {
n
b .
Definisi 2.3.2. (White, 1999) (i) Suatu barisan } {
n
b dikatakan sebanyak-banyak-
nya pada orde

n , dinotasikan ) (

n O b
n
, jika untuk beberapa bilangan real
terbatas 0 > , ada suatu bilangan bulat terbatas N sedemikan hingga untuk
semua N n , <

| |
n
b n

. (ii) Suatu barisan } {
n
b adalah pada orde lebih kecil
dari

n , dinotasikan ) (

n o b
n
, jika untuk setiap bilangan real 0 > ada suatu
bilangan bulat terbatas ) ( N sedemikian hingga untuk semua ) ( N n ,

<

| |
n
b n , yaitu 0

n
b n

.
Bab II. Analisis Runtun Waktu 28

2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence)
Berikut ini adalah definisi tentang konvergen hampir pasti untuk barisan
variabel random dan proposisi tentang konvergen hampir pasti untuk barisan
vektor random.
Definisi 2.3.3. (White, 1999) Misalkan )} ( {
n
X adalah suatu barisan variabel
random yang bernilai real. Dikatakan bahwa ) (
n
X adalah konvergen hampir
pasti (almost surely) pada suatu konstanta X , ditulis X X
s a
n

. .
) ( , jika ada
suatu bilangan real X sedemikian hingga 1 } ) ( : { X X P
n
.
Proposisi 2.3.1. (White, 1999) Diberikan
l k
g : l k, ( ) dan sembarang
barisan vektor random } {
n
yang berukuran 1 k sedemikian hingga

. .s a
n
, dimana adalah 1 k , jika g adalah kontinyu pada , maka
) ( ) (
. .
X X g g
s a
n
.
Bentuk konvergensi stokastik pada Definisi 2.3.3 dikenal dengan konsis-
tensi kuat (strong consistency) atau konvergen dengan probabilitas satu ( 1 . . p w ).

2.3.2 Konvergen dalam Probabilitas
Bagian ini dimulai dengan definisi tentang konvergen dalam probabiltas
dan konsep-konsep orde yang berkaitan, yang analog kuat dengan bagian
deterministik. Dengan pemahaman tersebut dapat dikembangkan konvergen
dalam probabilitas dari ekspansi Taylor yang akan digunakan untuk menurunkan
distribusi asimtotis sampel besar dari estimator-estimator parameter runtun
waktu. Bentuk konvergensi dalam probabilitas ini dikenal juga sebagai
konsistensi lemah (weak consistency).
Misalkan } , 2 , 1 , { K n a
n
adalah suatu barisan bilangan real positif dan
misalkan } , 2 , 1 , { K n X
n
adalah suatu barisan variabel random yang semuanya
didefinisikan pada ruang probabilitas yang sama.
Bab II. Analisis Runtun Waktu 29

Definisi 2.3.4. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas ke nol).
n
X disebut konvergen dalam probabilitas ke nol, ditulis ) 1 (
p n
o X atau
0
p
n
X , jika untuk setiap 0 > ,
0 ) | (| >
n
X P untuk n .
Definisi 2.3.5. (Brockwell dan Davis 1991, Keterbatasan dalam Probabilitas).
Suatu barisan } {
n
X adalah terbatas dalam probabilitas, ditulis ) 1 (
p n
O X , jika
untuk setiap 0 > ada ) , 0 ( ) ( sedemikian hingga
< > )) ( | (|
n
X P untuk semua n.
Definisi 2.3.6. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas dan
Orde dalam Probabilitas).
(i)
n
X konvergen dalam probabilitas ke suatu variabel random X , ditulis
X X
p
n
, jika dan hanya jika ) 1 (
p n
o X X .
(ii) ) (
n p n
a o X jika dan hanya jika ) 1 (
1
p n n
o X a

.
(iii) ) (
n p n
a O X jika dan hanya jika ) 1 (
1
p n n
O X a

.
Proposisi 2.3.2. (Brockwell dan Davis, 1991) Jika
n
X dan
n
Y , K , 2 , 1 n , adalah
variabel random yang didefinisikan pada ruang probabilitas yang sama dan
0 >
n
a , 0 >
n
b , K , 2 , 1 n , maka
(i) jika ) (
n p n
a o X dan ) (
n p n
b o Y , diperoleh
) (
n n p n n
b a o Y X ,
)) , (max(
n n p n n
b a o Y X + ,
dan
) ( | |
r
n p
r
n
a o X , untuk 0 > r ;
(ii) jika ) (
n p n
a o X dan ) (
n p n
b O Y , diperoleh
) (
n n p n n
b a o Y X .
Lagipula
(iii) pernyataan (i) tetap valid jika
p
o adalah di setiap tempat tergantikan oleh
p
O .
Bab II. Analisis Runtun Waktu 30

Berikut ini adalah teorema yang menunjukkan hubungan antara
konvergen hampir pasti dengan konvergen dalam probabilitas.
Teorema 2.3.1. (White, 1999) Misalkan } {
n
b adalah suatu barisan variabel
random. Jika b b
s a
n

. .
, maka b b
p
n
. Jika b b
p
n
, maka ada suatu
sub-barisan } {
j
n
b sedemikian hingga b b
s a
n
j

. .
.
Definisi 2.3.42.3.6 berkembang secara natural untuk barisan dari vektor
random. Anggap sekarang bahwa } , 2 , 1 , { K n
n
adalah suatu barisan dari
vektor random, yang semuanya didefinisikan pada ruang probabilitas yang sama
sedemikian hingga
n
mempunyai k komponen , , , ,
2 1 nk n n
X X X K K , 2 , 1 n .
Definisi 2.3.7. (Brockwell dan Davis 1991, Orde dalam Probabilitas untuk Vektor
Random).
(i) ) (
n p n
a o jika dan hanya jika ) (
n p nj
a o X , k j , , 1 K .
(ii) ) (
n p n
a O jika dan hanya jika ) (
n p nj
a O X , k j , , 1 K .
(iii)
n
konvergen dalam probabilitas ke suatu vektor random , ditulis

p
n
, jika dan hanya jika` ) 1 (
p n
o .
Konvergen dalam probabilitas dari
n
ke dapat juga dinyatakan
dalam jarak Euclidean


k
j j nj n
X X
1
2 / 1 2
] ) ( [ | | .
Proposisi 2.3.3. (Brockwell dan Davis, 1991) ) 1 (
p n
o jika dan hanya
jika ) 1 ( | |
p n
o .
Proposisi 2.3.4. (Brockwell dan Davis, 1991) Jika 0
p
n n
dan

p
n
maka
p
n
.
Proposisi 2.3.5. (Brockwell dan Davis, 1991) Jika } {
n
adalah suatu barisan
dari vektor random berdimensi k sedemikian hingga
p
n
dan jika
: g
k


m
adalah suatu pemetaan kontinyu, maka ) ( ) ( g g
p
n
.
Bab II. Analisis Runtun Waktu 31

Jika g adalah kontinyu pada a dan ) 1 (
p n
o a + maka argumen dari
Proposisi 2.3.5 menjelaskan bahwa ) 1 ( ) ( ) (
p n
o a g g + . Jika asumsi pada g
diperkuat dengan mencakup keberadaan suatu turunan, maka penurunan
probabilistik yang sejalan untuk ekspansi Taylor dari fungsi tidak random di
sekitar titik a adalah mungkin. Berikut ini adalah beberapa kesejalanan yang
bermanfaat dalam penurunan distribusi asimtotis.
Proposisi 2.3.6. (Brockwell dan Davis, 1991) Misalkan } {
n
adalah suatu
barisan variabel random sedemikian hingga ) (
n p n
r O a X + dengan a dan
0 0 <
n
r untuk n . Jika g adalah suatu fungsi dengan turunan ke s
pada a , maka

+
s
j
s
n p
j
n
j
n
r o a X
j
a g
X g
0
) (
) ( ) (
!
) (
) ( ,
dengan
) ( j
g adalah turunan ke j dari g dan g g
) 0 (
.
Proposisi 2.3.7. (Brockwell dan Davis, 1991) Misalkan } {
n
adalah suatu
barisan vektor random berukuran 1 k sedemikian hingga
) (
n p n
r O a ,
dengan a
k
dan 0
n
r untuk n . Jika g adalah suatu fungsi dari ke

k
ke sedemikian hingga turunan
i
x g / adalah kontinyu dalam suatu
persekitaran (neighborhood) ) (a N dari a , maka

+
k
i
n p i ni
i
n
r o a X
x
g
g g
1
) ( ) )( ( ) ( ) ( a a .

2.3.3 Konvergen dalam Mean ke r, r > 0
Pada bagian ini akan diberikan konsep konvergen dalam mean ke r dari
suatu variabel random dan sifat-sifatnya. Jika 2 r maka variabel random
adalah konvergen dalam kuadrat mean (mean square convergence).
Bab II. Analisis Runtun Waktu 32

Definisi 2.3.8 (Konvergen dalam Mean ke r , 0 > r ). Suatu barisan variabel
random } {
n
dikatakan konvergen dalam mean ke r menuju X , ditulis
X X
r
n
, jika 0 | |
r
n
X X E untuk n .
Proposisi 2.3.8 (Brockwell dan Davis 1991, Pertidaksamaan Chebychev). Jika
<
r
X E | | , 0 r dan 0 > , maka
r
r
X E
X P

| |
) | (| .
Proposisi berikut memberikan hubungan yang bermanfaat antara perilaku
dari momen dan orde dalam probabilitas.
Proposisi 2.3.9. (Brockwell dan Davis, 1991) Jika X X
r
n
maka
X X
p
n
.
Proposisi 2.3.10. (Brockwell dan Davis, 1991) Jika K , 2 , 1 , 0 > n a
n
, dan
) ( ) (
2 2
n n
a O X E , maka ) (
n p n
a O X .
Proposisi 2.3.11. (Brockwell dan Davis, 1991) Jika ) (
n
X E dan
0 ) ( Var
n
X maka
. .s m
n
X (dan
p
n
X dengan Proposisi 2.3.9).

2.3.4 Konvergen dalam Distribusi
Pernyataan X X
s m
n

. .
dan X X
p
n
adalah bermanfaat hanya
ketika variabel random K , , ,
2 1
X X X , didefinisikan pada ruang probabilitas yang
sama. Notasi konvergen dalam distribusi tergantung hanya pada fungsi distribusi
K , , ,
2 1
X X X , adalah tetap berguna bahkan jika K , , ,
2 1
X X X didefinisikan pada
ruang probabilitas yang berbeda.
Definisi 2.3.9. (Brockwell dan Davis 1991, Konvergen dalam Distribusi). Suatu
barisan } {
n
dari vektor random berukuran k dengan fungsi distribusi )} ( {
n
F
X

Bab II. Analisis Runtun Waktu 33

dikatakan konvergen dalam distribusi jika ada suatu vektor random berukuran k ,
, sedemikian hingga
) ( ) ( lim x x
X X
F F
n
n


untuk semua C x , (2.3.1)
dengan C adalah suatu himpunan titik-titik kontinuitas dari fungsi distribusi ) (
X
F
dari . Jika (2.3.1) dipenuhi, dapat dikatakan bahwa
n
konvergen dalam
distribusi ke . Konvergensi distribusi ini dinotasikan dengan
d
n
atau
X X
F F
d
n
.
Jika
d
n
maka distribusi dari
n
dapat dengan baik didekati oleh
distribusi untuk n yang besar.
Teorema 2.3.2. (Billingsley 1979, Karakterisasi dari Konvergen dalam Distribusi).
Jika , ,
1 0
F F K ,
2
F adalah fungsi-fungsi distribusi pada
k
dengan fungsi
karakteristik

k
n n
dF x i ) ( ) exp( ) ( x t t , K 2 , 1 , 0 n , maka pernyataan berikut
adalah ekuivalen:
(i)
0
F F
d
n
,
(ii)


k k dF g dF g
n
) ( ) ( ) ( ) (
0
x x x x , untuk setiap fungsi g yang kontinyu dan
terbatas.
(iii) ) ( ) ( lim
0
t t

n
n
, untuk setiap ) , , (
1 k
t t K t
k
.
Proposisi 2.3.12. (Brockwell dan Davis 1991, Aturan Cramer-Wold). Misalkan
} {
n
adalah suatu barisan vektor random berdimensi k . Maka
d
n
jika
dan hanya jika
d
n
untuk semua ) , , (
1 k
K
k
.
Proposisi 2.3.13. (Brockwell dan Davis, 1991) Jika
P
n
maka
(i) 0 | ) exp( ) exp( | t i t i E
n
, saat n untuk setiap t
k

dan
(ii)
d
n
.
Bab II. Analisis Runtun Waktu 34

Proposisi 2.3.14. (Brockwell dan Davis, 1991) Jika } {
n
dan } {
n
adalah
dua barisan vektor random berdimensi k sedemikian hingga ) 1 (
p n n
o
dan
d
n
, maka
d
n
.
Proposisi 2.3.15. (Brockwell dan Davis, 1991) Jika } {
n
adalah suatu barisan
vektor random berdimensi k sedemikian hingga
d
n
dan jika : h

m
adalah suatu pemetaan kontinu, maka ) ( ) ( h h
d
n
.
Proposisi 2.3.16. (Brockwell dan Davis, 1991) Jika b
d
n
dengan b
adalah suatu vektor konstanta berdimensi k , maka b
p
n
.
Proposisi 2.3.17. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan
Besar atau The Weak Law of Large Numbers). Jika } {
n
X adalah suatu barisan
variabel random yang IID dengan suatu mean yang terbatas, maka

p
n
X ,
dengan n X X X
n n
/ ) (
1
+ + L .
Proposisi 2.3.18. (Brockwell dan Davis, 1991) Jika } {
n
dan } {
n
adalah
barisan-barisan dari vektor random yang berdimensi k dan m, dan jika

d
n
dan b
d
n
adalah suatu vektor konstanta, maka
1
]
1


1
]
1

d
n
n
. (2.3.2)
Proposisi 2.3.19. (Brockwell dan Davis, 1991) Jika } {
n
dan } {
n
adalah
barisan-barisan dari vektor random yang berdimensi k sedemikian hingga

d
n
dan b
d
n
dengan b adalah suatu konstanta, maka
(i) b + +
d
n n

dan
(ii) b
d
n n
.
Bab II. Analisis Runtun Waktu 35

Proposisi 2.3.20. (Brockwell dan Davis, 1991) Misalkan
n
, K , 2 , 1 n , dan
nj
, ; , 2 , 1 K j K , 2 , 1 n , adalah vektor-vektor random yang berdimensi k
sedemikian hingga
(i)
j
d
nj
saat n untuk setiap K , 2 , 1 j ,
(ii)
d
j
saat j , dan
(iii) 0 ) | (| sup lim lim >


nj n n j
P untuk setiap 0 > .
Maka
d
n
untuk n .
Proposisi 2.3.21. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan
Besar untuk Moving Average atau The Weak Law of Large Numbers for Moving
Average). Jika } {
n
Y adalah suatu moving average bersisi dua

j
j t j n
Y ,
dengan } {
t
adalah IID dengan mean dan


<
j
j
| | . Maka

,
_

j
j
p
n
Y .
(Catatan bahwa varians dari
t
mungkin tidak terhingga.)
Berikut ini adalah teorema yang menjelaskan hubungan antara konvergen
dalam probabilitas dan konvergen dalam distribusi yang dikenal dengan Teorema
Slutsky.
Teorema 2.3.3. (Serfling 1980, Slutsky). Jika X X
d
n
dan c Y
p
n
,
dengan c suatu konstanta yang berhingga. Maka
(i) c X Y X + +
d
n n
;
(ii) cX Y X
d
n n
;
(iii) c X Y X / /
d
n n
jika 0 c .
Bab II. Analisis Runtun Waktu 36

2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan
Banyak dari estimator-estimator yang digunakan dalam analisis runtun
waktu menjadi normal secara asimtotis seiring dengan jumlah pengamatan
menuju tak terhingga. Dalam bagian ini akan dikembangkan beberapa teknik
standar yang digunakan untuk membuktikan normalitas asimtotis.
Definisi 2.3.10. Suatu barisan variabel random } {
n
X disebut normal asimtotis
dengan mean
n
dan deviasi standar
n
, jika 0 >
n
untuk n cukup besar
dan
Z
X
d
n
n n

) (
, dengan ) 1 , 0 ( ~ Z .
Dalam notasi dari Serfling (1980), hal ini ditulis dengan
n
X adalah ) , (
2
n n
.
Catatan 1. Jika
n
X ) , (
2
n n
d
, ini tidaklah perlu bahwa ) (
n n
X E
atau bahwa ) (
2
n n
X Var .
Catatan 2. Untuk membuktikan bahwa
n
X ) , (
2
n n
d
seringkali yang
paling sederhana adalah membuktikan hasil dalam bentuk ekuivalen
) 2 / exp( ) (
2
t t
n
Z
.
dengan ) (
n
Z
adalah fungsi karakteristik dari ) (
1
n n n n
X Z

. Pendekatan
ini bekerja dengan baik secara khusus ketika
n
X adalah suatu jumlah dari
variabel random independen seperti pada teorema berikut ini.
Teorema 2.3.4. (Brockwell dan Davis 1991, Teorema Limit Pusat atau The
Central Limit Theorem). Jika ) , ( IID ~ } {
2

n
X dan n X X X
n n
/ ) (
1
+ + L ,
maka
n
X ) / , ( N
2
n
d
.
Catatan 3. Asumsi dari distribusi yang identik dalam Teorema 2.3.4 dapat
digantikan oleh yang lain, seperti suatu kondisi Lindeberg (lihat Billingsley, 1979;
halaman 310) dengan suatu batasan pada suatu varians terpotong dari variabel
random
n
X .
Bab II. Analisis Runtun Waktu 37

Proposisi 2.3.22. (Brockwell dan Davis, 1991) Jika
n
X ) , (
2
n
d
dengan
0
n
untuk n , dan jika g adalah suatu fungsi yang dapat diturunkan
pada , maka
) (
n
X g ) ) ( ), ( (
2 2
n
d
g g .
Selanjutnya akan dikembangkan bentuk dari normalitas asimtotis untuk
vektor- k yang random, dengan 1 k . Berikut adalah definisi yang berkaitan
dengan asismtotis normalitas multivariat.
Definisi 2.3.11. Suatu barisan } {
n
dari vektor- k yang random adalah normal
asimtotis dengan vektor mean
n
dan matriks kovarians
n
jika
(i)
n
tidak mempunyai elemen-elemen diagonal yang nol untuk semua n
cukup besar, dan
(ii)
n
) , (
n n
d
untuk setiap
k
sedemikian hingga
0 >
n
untuk semua semua n cukup besar.
Proposisi 2.3.23. (Brockwell dan Davis, 1991) Jika
n
) , (
n n
d
dan B
adalah sembarang matriks k m tidak nol sedemikian hingga matriks-matriks
B B
n
, K , 2 , 1 n , tidak mempunyai elemen-elemen diagonal nol, maka
n
B ) , ( B B B
n n
d
.
Proposisi 2.3.24. (Brockwell dan Davis, 1991)
Anggap bahwa
n
) , (
2

n
d
c dengan adalah suatu matriks simetrik
yang definit negatif dan 0
n
c untuk n . Jika ) ) ( , ), ( ( ) (
1
g
m
g g K
adalah suatu pemetaan dari
k
ke
m
sedemikian hingga tiap-tiap ) (
i
g dapat
diturunkan secara kontinyu dalam suatu persekitaran , dan jika D D
mempunyai elemen-elemen diagonal yang semuanya tidak nol, dengan D
adalah suatu matriks )] )( / [(
j i
x g berukuran k m , maka
) (
n
g ) ), ( (
2
D D g
n n
d
c .
Bab II. Analisis Runtun Waktu 38

Definisi 2.3.12. (Brockwell dan Davis 1991, Dependensi- ) m . Suatu barisan
variabel random yang stasioner kuat } {
n
X dikatakan dependensi- m (dengan m
adalah suatu bilangan bulat non negatif) jika untuk tiap-tiap t , dua himpunan
variabel random } , { t j X
j
dan } 1 , { + + m t j X
j
adalah independen.
Catatan 4. Untuk melakukan pengecekan dependensi- m dari barisan yang
stasioner kuat } , 2 , 1 , 0 , { K t t t X
t
, hal ini adalah cukup dengan melakukan cek
independensi dari dua himpunan } , { t j X
j
dan } 1 , { + + m t j X
j
, karena
himpunan-himpunan itu mempunyai distribusi gabungan yang sama seperti
} , { t j X
j
dan } 1 , { + + m t j X
j
.
Catatan 5. Sifat dependensi- m mengeneralisasi independensi dalam cara yang
natural. Pengamatan-pengamatan dari suatu proses yang dependen- m adalah
independen untuk pengamatan-pengamatan yang terpisah dalam waktu lebih
dari m unit waktu. Untuk kasus khusus ketika 0 m , dependensi- m tereduksi
menjadi independensi. Suatu proses MA( q ) adalah proses yang dependen- m
dengan q m .
Teorema 2.3.5. (Brockwell dan Davis 1991, Teorema Limit Pusat untuk Barisan
Dependen- m yang Stasioner Kuat atau The Central Limit Theorem for Strictly
Stationary m-Dependent Sequences). Jika } {
n
X adalah suatu barisan variabel
random dependen- m yang stasioner kuat dengan mean nol dan fungsi
autokovarians ) ( , dan jika 0 ) ( 2 ) 0 (
1
+


m
j m
j v , maka:
(i)
m n
n
v X n

) ( lim Var ,
(ii)
n
X ) / , 0 ( n v
m
d
.

2.4 Sifat Normalitas Asimtotis Estimator Model ARMA
Pada bagian ini akan diberikan penjabaran sifat-sifat estimator model
ARMA beserta sifat normalitas asimtotisnya. Sifat-sifat ini adalah bagian penting
untuk proses inferensia statistik berkaitan dengan signifikansi parameter model
Bab II. Analisis Runtun Waktu 39

ARMA. Secara umum, penurunan secara teoritik akan dilakukan pada estimator
Yule-Walker, Least Squares dan Maximum Likelihood.

2.4.1 Sifat Estimator Yule-Walker
Untuk mengetahui sifat asimtotis dari estimator Yule-Walker ini,
asumsikan bahwa } {
t
Y adalah suatu proses AR(p) yang kausal
t p t p t t
Y Y Y

L
1
, (2.4.1)
dengan ) , 0 ( IID ~ } {
2

t
. Penaksir Yule-Walker dari dan
2
adalah seperti
yang diberikan pada persamaan (2.2.7) dan (2.2.8), atau ekuivalen dengan
p p


1
,
dan

) 0 (
2
p
.
Ini adalah lebih mudah untuk menyatakan (2.4.1) dalam bentuk
X Y + , (2.4.2)
dengan ) , , (
1

n
Y Y K Y , ) , , (
1

n
K dan X adalah suatu matrik p n ,
1
1
1
1
1
]
1


p n n n
p
p
Y Y Y
Y Y Y
Y Y Y
L
M O M M
L
L
2 1
2 0 1
1 1 0
X .
Karena (2.4.2) adalah sama dengan suatu model linear umum, maka taksiran
regresi linear
*
dari didefinisikan dengan
Y X X X
1 *
) ( . (2.4.3)
Vektor
*
bukanlah suatu estimator yang biasa karena estimator ini tergantung
pada nilai-nilai
p n p p
Y Y Y

, , ,
2 1
K dan tidak hanya tergantung pada
n
Y Y , ,
1
K .
Proposisi 2.4.1. (Brockwell dan Davis, 1991) Dengan
*
didefinisikan seperti
dalam (2.4.3)
) , ( N ) (
1 2 * 2 / 1

p
d
n 0 .
Bab II. Analisis Runtun Waktu 40

Berikut ini adalah beberapa teorema yang berkaitan dengan distribusi
asimtotis dari estimator Yule-Walker.
Teorema 2.4.1. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses
AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ) , 0 ( IID ~ } {
2

t
,
dan

adalah estimator Yule-Walker dari , maka


) , ( )

(
1 2 2 / 1

p
d
n 0 ,
dengan
p
adalah suatu matrik kovarians
p
j i
j i
1 ,
)] ( [

. Selain itu,
2 2

p
.
Teorema 2.4.2. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses
AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ) , 0 ( IID ~ } {
2

t
,
dan jika p m R
m m mm m m
> ,

, ,

1
K , maka
) , ( )

(
1 2 2 / 1

m
d
m m
n 0 ,
dengan
m
adalah suatu vektor koefisien dari prediktor linear terbaik
m

m

dari
1 + m
Y berdasarkan pada
m

) , , (
1
Y Y
m
K
, yaitu
m m m
R
1
. Secara
khusus untuk p m > ,
) 1 , 0 ( N

2 / 1

d
mm
n .

2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares
Pada bagian ini akan dijelaskan normalitas asimtotis suatu estimator dari
vektor koefisien untuk proses ARMA(p,q) yang kausal dan invertible yang
mempunyai distribusi asimtotis yang sama seperti estimator least squares dan
maximum likelihood.
Ingat kembali bahwa estimator-estimator least squares meminimumkan
jumlah kuadrat,



n
t
t t t
r Y Y S
1
1
2
/ )

( ) , ( .
Bab II. Analisis Runtun Waktu 41

Berikut ini adalah pendekatan atau aproksimasi untuk ) , ( S . Pertama, dekati
suatu standardized innovations
2 / 1
1
) /( )

t t t
r Y Y dengan ) ( ,
t
, yaitu

'


). , ( ) , ( ) (

), , ( ) (
, ) (
1 1 1 1
1 1 1 1 2 2
1 1



q n q n p n p n n n
Y Y Y ,
Y Y ,
Y ,

L L
M
(2.4.4)
Dengan asumsi invertibilitas,
t
dapat ditulis dalam bentuk,

+
1 j
j t j t t
Y Y ,
sehingga (2.4.7) dapat dijabarkan sebagai


+
1
1
) , (
t
j
j t j t t
Y Y .
Gunakan hubungan-hubungan berikut


1
1
1
| | ) , (
t
j
j t t
Y ,
2
2
1
2
) , (


t t t t
r Y Y

,
dan
2
1
2
) 1 ( )

(
t t t t
r Y Y ,
dapat ditunjukkan bahwa

'

, ) , (
, ) /( )

( ) , (
, ) , (
2
2 / 1
1
1
k
a c r Y Y
a c
t
t
t t t t
t
t t



(2.4.5)
untuk semua t dengan
2 1
, , c c a dan k adalah konstanta-konstanta dengan
1 0 < < a .
Dalam hal ini adalah penting untuk membuat satu pendekatan lanjut
untuk
2 / 1
1
) /( )

t t t
r Y Y dengan melinearisasi ) , (
t
pada suatu nilai estimasi
Bab II. Analisis Runtun Waktu 42

awal ) , (
0 0
dari ) , ( . Dengan demikian, jika ) , , , , , (
1 1 q p
K K dan
) , (
0 0 0
, maka ) (
t
dapat didekati dengan
) ( ) (
0 0
D
t t
,
dengan )) ( , ), ( (
0 , 0 1 ,
D
q p t t t
D D
+
K , dan
,
) (
) (
,
i
t
i t
D



q p i + , , 1 K .
Selanjutnya, dengan meminimisasi jumlah kuadrat


n
t
t t
1
2
0 0
)) ( ) ( ( D .
akan diperoleh suatu estimator
+


dari yang mempunyai sifat-sifat asimtotis
seperti estimator least squares
~
. Secara khusus, jika dimisalkan bahwa
) ) ( , ), ( ( ) (
0 0 1 0

n
K dan tulis D untuk matriks ukuran ) ( q p n + , yaitu
) , , (
1

n
D D K , maka estimasi regresi linear dari
0
adalah
) ( ) (
0
1
D D D

,
sehingga

+
+
0
.
Sifat normalitas asimtotis dari estimator ini adalah kenyataan yang telah terbukti
mengikuti teorema berikut ini.
Teorema 2.4.3. (Brockwell dan Davis, 1991) Jika } {
t
Y adalah suatu proses
ARMA(p,q) yang kausal dan invertible
q t q t t p t p t t
Y Y Y

+ + + L L
1 1 1 1
,
dengan ) , 0 ( IID ~ } {
2

t
dan dengan ) (z dan ) (z tidak mempunyai pembuat
nol. Anggap bahwa ) , , (
, 0 01 0

+q p
K adalah suatu estimator awal dari
) , , , , , (
1 1

q p
K K sedemikian hingga ) (
4 / 1
0

n o
p
, dan
+
adalah
estimator yang dikonstruksi dari
0
seperti yang dijelaskan di atas. Maka
(i) ) (
1 2 1


V D D n
p

Bab II. Analisis Runtun Waktu 43

dengan ) ( V adalah suatu matriks nonsingular ukuran ) ( ) ( q p q p + + dan
(ii) )) ( , ( ) (
2 / 1
0 N V n
d

+
.
Sebagai tambahan untuk estimator least squares
~
, diperoleh
(iii) )) ( , ( )
~
(
2 / 1
0 N V n
d
.




- 44 -
BAB III
FEEDFORWARD NEURAL NETWORKS

Bentuk arsitektur neural networks (NN) yang secara umum paling banyak
digunakan dalam aplikasi di bidang teknik atau rekayasa adalah Multi Layer
Perceptrons (MLP) yang juga dikenal dengan Feedforward Neural Networks
(FFNN). Pemodelan regresi, runtun waktu dan signal processing adalah salah
satu aplikasi NN yang biasanya berdasarkan pada arsitektur FFNN.
Dalam pemodelan statistik, FFNN dapat dipandang sebagai suatu kelas
yang fleksibel dari fungsi-fungsi nonlinear. Secara umum, model ini bekerja
dengan menerima suatu vektor dari input x dan kemudian menghitung suatu
respon atau output ) ( x y dengan memproses (propagating) x melalui elemen-
elemen proses yang saling terkait. Elemen-elemen proses tersusun dalam
beberapa lapis (layer) dan data input, x , mengalir dari satu lapis ke lapis
berikutnya secara berurutan. Dalam tiap-tiap lapis, input-input ditransformasi
kedalam lapis secara nonlinear oleh elemen-elemen proses dan kemudian
diproses maju ke lapis berikutnya. Akhirnya, nilai-nilai output

y , yang dapat
berupa nilai-nilai skalar atau vektor, dihitung pada lapis output.
Gambar 3.1 adalah suatu contoh dari bentuk khusus FFNN dengan satu
lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis tersem-
bunyi yang terdiri dari q unit neuron dan lapis output yang hanya terdiri dari satu
unit neuron. Dalam arsitektur ini, nilai-nilai respon atau output y dihitung dengan
1
1
]
1

+ +


p
i
o h
j k i
h
ji
q
j
h
j
o
j
o
k
b b x w f w f y
1
) (
1
) (
] ) ( [ , (3.1)
dengan :
) (k i
x = variabel input sebanyak p , ) , , 2 , 1 ( p i L
) (

k
y = nilai dugaan dari variabel output
k = indeks pasangan data input-target ) , (
) ( ) ( k k i
y x , n k , , 2 , 1 K
h
ji
w = bobot dari input ke- i yang menuju neuron ke- j pada lapis
tersembunyi, ) , , 2 , 1 ( q j L
Bab III. Feedforward Neural Networks

45

h
j
b = bias pada neuron ke- j pada lapis tersembunyi, ) , , 2 , 1 ( q j L
h
j
f = fungsi aktifasi di neuron ke- j pada lapis tersembunyi
o
j
w = bobot dari neuron ke- j di lapis tersembunyi yang menuju neuron
pada lapis output

o
b = bias pada neuron di lapis output
o
f = fungsi aktifasi pada neuron di lapis output.






















Lapis Output
Lapis Input Lapis Tersembunyi (Variabel Dependen/
(Variabel Independen) (q unit neuron) Respons)


Gambar 3.1. Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q
unit neuron di lapis tersembunyi, dan satu unit neuron output.

Bentuk nonlinear fungsi y terjadi melalui suatu fungsi yang disebut fungsi
aktifasi
h
j
f pada lapis tersembunyi dan
o
f pada lapis output, biasanya fungsi
halus atau smooth seperti fungsi logistik sigmoid atau fungsi tanh.
Beberapa notasi akan digunakan untuk memperjelas penjabaran proses
input-output FFNN pada Gambar 3.1 di atas. Superscript h digunakan sebagai
indeks yang menyatakan lapis tersembunyi dan o

untuk indeks yang
menyatakan lapis output. Digunakan juga
h
j
v untuk menyatakan suatu vektor
Y


h
ji
w
h
j
b
1
X
1

X
2

X
p

) (
1

h
f
) (
2

h
f
) (
3

h
f
) (
h
q
f
M
M
) (

o
f
o
j
w
1
o
b
Bab III. Feedforward Neural Networks

46
nilai-nilai setelah proses penjumlahan input dan bobot-bobot (bias termasuk di
dalamnya) pada lapis tersembunyi di neuron ke- j , yaitu

+
p
i
h
j i
h
ji
h
j
b x w v
1
, (3.2a)
atau untuk data ke k diperoleh

+
p
i
h
j k i
h
ji
h
k j
b x w v
1
) ( ) (
. (3.2b)
Output pada lapis tersembunyi yang terproses di neuron ke- j adalah
) (
h
j
h
j
h
j
v f a , (3.3a)
atau untuk data ke k diperoleh
) ( ) (
1
) ( ) ( ) (

+
p
i
h
j k i
h
ji
h
j
h
k j
h
j
h
k j
b x w f v f a . (3.3b)
Dengan cara yang sama, maka beberapa notasi yang menyatakan
penjumlahan input dan bobot-bobot pada lapis output adalah
o
q
j
h
j
o
j
o
b a w v +

1
, (3.4a)
atau untuk data ke k diperoleh
o
q
j
h
k j
o
j
o
k
b a w v +

1
) ( ) (
. (3.4b)
Output pada lapis output adalah
) (
) ( ) ( ) (
o
k
o o
k k
v f a y . (3.5)
Dengan demikian, hubungan antara input
) (k i
x , p i , , 2 , 1 K dan n k , , 2 , 1 K ,
dengan output
) (

k
y adalah

+
q
j
o h
k j
h
j
o
j
o
k
b v f w f y
1
) ( ) (
) ) ( (

1
1
]
1

+ +


p
i
o h
j k i
h
ji
q
j
h
j
o
j
o
b b x w f w f
1
) (
1
] ) ( [

) , , , (
) ( ) ( 2 ) ( 1 k p k k
x x x F K (3.6)
Bab III. Feedforward Neural Networks

47
Pemetaan secara keseluruhan yang terjadi pada FFNN ini selanjutnya dapat
ditulis dalam bentuk

1
1
1
1
1
]
1

1
1
1
1
1
]
1

) , , , (
) , , , (
) , , , (

) ( ) ( 2 ) ( 1
) 2 ( ) 2 ( 2 ) 2 ( 1
) 1 ( ) 1 ( 2 ) 1 ( 1
) (
) 2 (
) 1 (
n p n n
p
p
n
x x x F
x x x F
x x x F
y
y
y
K
M
K
K
M
. (3.7)

3.1 Algoritma Backpropagation
Pada bagian ini akan diberikan hasil-hasil kajian teoritik yaitu penurunan
dan pembuktian algoritma backpropagation pada FFNN yang banyak digunakan
untuk analisis runtun waktu dan regresi. Hasil kajian ini telah dipublikasikan dan
secara lengkap dapat dilihat pada Suhartono dkk. (2005d).
Ripley (1996) menyatakan bahwa keberadaan pendekatan suatu fungsi
adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan
pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang
neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan
NN diawali oleh pembelajaran RumelhartMcClelland (1986) yaitu untuk
melakukan fitting terhadap parameter-parameter fungsi dengan metode least
squares. Misalkan kita mempunyai beberapa pasang sampel input dan target
) , (
) ( ) ( k k
y x , dan output dari network adalah ) , ( w x y f . Maka, vektor parameter
w dipilih dengan cara meminimumkan


n
k
k k
x f y Q
1
2
) ( ) (
)] ; ( [ ) ( w w (3.1.1)
seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber
dan Wild, 1989).
Secara umum, aplikasi nonlinear least squares pada neural networks
terbagi dalam dua pendekatan untuk mengupdate bobot-bobot, yaitu yang
dikenal dengan adaptasi off-line dan on-line. Pada adaptasi off-line, bobot-bobot
diupdate pada setiap pasangan input-output, sedangkan di adaptasi on-line atau
yang dikenal dengan batch mode, bobot-bobot hanya diupdate setelah seluruh
Bab III. Feedforward Neural Networks

48
pasangan data input-output pada data training terproses. Bagian ini hanya
menjelaskan aplikasi dari algoritma nonlinear least squares pada training yang
diproses secara batch mode dari suatu FFNN.
Gradient descent merupakan salah satu dari kelompok metode optimisasi
yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari
fungsi kesalahan (error) yaitu
) ( ) ( ) ( w w w w w Q Q Q
T
+ + . (3.1.2)
Bobot-bobot diupdate melalui
0 ), ( > w w Q , (3.1.3)
dengan adalah suatu koefisien pembelajaran (learning rate).
Berikut ini adalah corollary yang merupakan modifikasi algoritma back-
propagation dengan metode gradient descent dari Moller (1997). Corollary ini
adalah khusus untuk mendapatkan bobot-bobot pada model FFNN yang
digunakan untuk peramalan runtun waktu univariat seperti pada Gambar 3.1.
Corollary 3.1.1. ) (w Q atau w w / ) ( Q adalah gradien dari n pasangan data
input-target yang dapat dihitung dengan satu proses langkah maju (forward
propagation) dan satu proses langkah mundur (backward propagation). Jika
pemrosesan maju dari input ke lapis tersembunyi di neuron ke- j adalah
) (
) ( ) (
h
k j
h
j
h
k j
v f a , dengan

+
p
i
h
j k i
h
ji
h
k j
b x w v
1
) ( ) (
,
dan pemrosesan maju dari lapis tersembunyi ke lapis output adalah
) (
) ( ) (
o
k
o o
k
v f a , dengan

+
q
j
o h
k j
o
j
o
k
b a w v
1
) ( ) (
,
maka pemrosesan mundur dari lapis output ke lapis tersembunyi (untuk update
bobot-bobot pada lapis output) adalah
h
k j
n
k
o
k
o
j
a
w
Q
) (
1
) (
) (

w
, dan

n
k
o
k
o
b
Q
1
) (
) (

w
, (3.1.4)
dengan

,
_

q
l
h
k l
o
l
o
k k
o
k
a w f y y
1
) ( ) ( ) ( ) (
] [ ,
Bab III. Feedforward Neural Networks

49
dan pemrosesan mundur dari lapis tersembunyi ke input (untuk update bobot-
bobot pada lapis tersembunyi) adalah
) (
1
) (
) (
k i
n
k
h
k j
h
ji
x
w
Q

w
, dan

n
k
h
k j
h
j
b
Q
1
) (
) (

w
, (3.1.5)
dengan )] ( [
) ( ) ( ) (
h
k j
h
j
o
j
o
k
h
k j
n f w

.
Bukti: Perhatikan kembali arsitektur umum dari suatu FFNN dengan satu lapis
tersembunyi seperti pada Gambar 3.1 di atas dan definisikan suatu fungsi biaya
sebagai suatu jumlahan dari kuadrat error data training


n
k
k k
y y Q
1
2
) ( ) (
) (
2
1
(3.1.6)
dimana :
) (k
y = target (nilai sebenarnya dari variabel output atau respon)
) (

k
y = output dari lapis terakhir (lapis output)
k = indeks pasangan input-target yaitu ) , (
) ( ) ( k k
y x yang digunakan pada
training dengan n k , , 2 , 1 K .

Seperti yang dijelaskan sebelumnya, backpropagation adalah suatu
algoritma untuk mendapatkan bobot-bobot pada tiap-tiap lapis yang dinotasikan
dengan
h
ji
w dan
o
j
w , dengan cara meminimumkan nilai Q seperti Persamaan
(3.1.6) pada keseluruhan himpunan training. Untuk penyederhanaan notasi,
digunakan simbol w untuk vektor
} , , 2 , 1 , , , 2 , 1 : , { q j p i w w
o
j
h
ji
K K w .
Sehingga fungsi obyektif pada Persamaan (3.1.6) yang akan diminimalkan dapat
ditulis


+ +
n
k
q
j
o h
j
p
i
k i
h
ji
h
j
o
j
o
k
b b x w f w f y Q
1
2
1 1
) ( ) (
] )) ) ( ( ( [
2
1
) (w . (3.1.7)
Penyelesaian masalah optimisasi di atas akan dilakukan dengan meng-
gunakan suatu algoritma gradient, yaitu
Bab III. Feedforward Neural Networks

50
w
w
w
d
Q ) (
. (3.1.8a)
atau
w
w
w w
d
Q
m
m m
) (
) ( ) 1 (
) (

+
. (3.1.8b)
Untuk memformulasikan algoritma tersebut, dibutuhkan perhitungan turunan
parsial dari Q terhadap tiap-tiap komponen w. Pertama, akan dilakukan
perhitungan turunan parsial dari Q terhadap
o
j
w . Untuk itu, tulis kembali
persamaan (3.1.6) dalam


+
n
k
q
l
o h
k l
o
l
o
k
b a w f y Q
1
2
1
) ( ) (
] ) ( [
2
1
) (w , (3.1.9)
dengan q l , , 2 , 1 K dan
) ( ) (
1
) ( ) ( ) (

+
p
i
h
j k i
h
li
h
l
h
k l
h
l
h
k l
b x w f v f a .
Dengan menggunakan aturan berantai pada perhitungan turunan parsial, yaitu
o
j
o
k
o
k
o
k
o
k
o
j
w
v
v
a
a
Q
w
Q

) (
) (
) (
) (
) ( ) ( w w
, (3.1.10)
diperoleh
h
k j
q
l
o h
k l
o
l
o
n
k
k k
o
j
a b a w f y y
w
Q
) (
1
) (
1
) ( ) (
] [
) (

,
_

w
, (3.1.11)
dengan :
' o
f adalah turunan dari
o
f terhadap
o
k
v
) (
. Untuk menyeder-
hanakan notasi, digunakan

,
_

q
l
o h
k l
o
l
o
k k
o
k
b a w f y y
1
) ( ) ( ) ( ) (
] [ , (3.1.12)
sehingga diperoleh

h
k j
n
k
o
k
o
j
a
w
Q
) (
1
) (
) (

w
. o
Melalui cara yang sama, yaitu dengan aturan berantai, perhitungan
turunan parsial dari Q terhadap
o
b adalah
Bab III. Feedforward Neural Networks

51
o
o
k
o
k
o
k
o
k
o
b
v
v
a
a
Q
b
Q

) (
) (
) (
) (
) ( ) ( w w
, (3.1.13)
akan diperoleh

,
_

o
q
l
h
k l
o
l
o
n
k
k k
o
b a w f y y
b
Q
1
) (
1
) ( ) (
] [
) (w
, (3.1.14)
atau

n
k
o
k
o
b
Q
1
) (
) (

w
, o
dengan
o
k) (
seperti pada persamaan (3.1.12).
Selanjutnya akan dilakukan penurunan perhitungan turunan parsial dari
Q terhadap
h
ji
w . Melalui aturan berantai pada perhitungan turunan parsial, yaitu
h
ji
h
k j
h
k j
h
k j
h
k j
o
k
o
k
o
k
o
k
h
ji
w
v
v
a
a
v
v
a
a
Q
w
Q

) (
) (
) (
) (
) (
) (
) (
) (
) ( ) ( w w
, (3.1.15)
sehingga diperoleh
) (
1
) (
1
) (
1
) ( ) (
) (
) (
k i
q
l
h
j k i
h
li
h
j
o
j
q
l
o h
k l
o
l
n
k
o
k k
h
ji
x b x w f w b a w f y y
w
Q
1
]
1

+
1
]
1

w
, (3.1.16)
dengan :
h
j
f

adalah turunan dari
h
j
f

terhadap
h
k j
v
) (
. Penyederhanaan
notasi ini dengan menggunakan
o
k) (
seperti pada persamaan (3.1.12), diperoleh
) ( ) (
1
) (
)] ( [ ) (
) (
k i
h
k j
h
j
n
k
o
j
o
k
h
ji
x v f w
w
Q

w
, (3.1.17)
atau

) (
1
) (
) (
k i
n
k
h
k j
h
ji
x
w
Q

w
, dengan )] ( [
) ( ) ( ) (
h
k j
h
j
o
j
o
k
h
k j
v f w

. o
Dengan cara yang sama, penurunan perhitungan turunan parsial dari Q
terhadap
h
j
b dengan aturan berantai, yaitu
Bab III. Feedforward Neural Networks

52
h
j
h
k j
h
k j
h
k j
h
k j
o
k
o
k
o
k
o
k
h
j
b
v
v
a
a
v
v
a
a
Q
b
Q

) (
) (
) (
) (
) (
) (
) (
) (
) ( ) ( w w
, (3.1.18)
menghasilkan
1
]
1

+
1
]
1

q
l
h
j k i
h
li
h
j
o
j
q
l
o h
k l
o
l
n
k
o
k k
h
j
b x w f w b a w f y y
b
Q
1
) (
1
) (
1
) ( ) (
) (
) (w
, (3.1.19)
atau
)] ( [ ) (
) (
) (
1
) (
h
k j
h
j
n
k
o
j
o
k
h
j
v f w
b
Q

w
, (3.1.20)
atau

n
k
h
k j
h
j
b
Q
1
) (
) (

w
, dengan )] ( [
) ( ) ( ) (
h
k j
h
j
o
j
o
k
h
k j
v f w

. o

Pada tahap ini, formula dari algoritma gradien untuk mengupdate bobot-
bobot dari FFNN telah dapat diturunkan. Dua persamaan update untuk bobot
h
ji
w ,
h
j
b ,
o
j
w , dan
o
b akan diberikan secara terpisah, yaitu
a. Untuk updating bobot-bobot dan bias pada lapis output :

+
+
n
k
m
h
k j
m
o
k
m
o
j
m
o
j
a w w
1
) (
) (
) (
) (
) ( ) 1 (
, (3.1.21a)

+
+
n
k
m
o
k
m
o
m
o
b b
1
) (
) (
) ( ) 1 (
. (3.1.21b)
b. Untuk updating bobot-bobot dan bias pada lapis tersembunyi :
) (
1
) (
) (
) ( ) 1 (
k i
n
k
m
h
k j
m
h
ji
m
h
ji
x w w

+
+ , (3.1.22a)

+
+
n
k
m
h
k j
m
h
j
m
h
j
b b
1
) (
) (
) ( ) 1 (
. (3.1.22b)
dengan adalah koefisien pembelajaran (learning rate).
Bab III. Feedforward Neural Networks

53
Ilustrasi jalannya persamaan update untuk bobot-bobot di lapis output
o
j
w
dapat dilihat pada Gambar 3.2, sedangkan untuk di lapis tersembunyi
h
ji
w dapat
dilihat pada Gambar 3.3.







Gambar 3.2. Ilustrasi dari persamaan update bobot-bobot pada lapis output

Persamaan update di atas dikenal dalam beberapa literatur sebagai algoritma
backpropagation. Alasan untuk nama backpropagation adalah kenyataan
bahwa selisih-selisih output dalam
) (
) (
m
o
k
diproses mundur dari lapis output
menuju ke lapis tersembunyi, yang kemudian digunakan dalam persamaan
update untuk bobot-bobot pada lapis tersembunyi, seperti yang diilustrasikan
pada Gambar 3.3.
Sekali lagi, dalam bagian ini pembahasan hanya difokuskan pada FFNN
(MLP) dengan satu lapis tersembunyi dan satu neuron pada lapis output. Secara
Bab III. Feedforward Neural Networks

54
umum, persamaan update untuk FFNN dengan lebih dari satu lapis tersembunyi
dan beberapa neuron di lapis output juga dapat diturunkan seperti di atas.





Gambar 3.3. Ilustrasi dari persamaan update untuk bobot-bobot pada
lapis tersembunyi

3.2 Konsistensi Estimator Backpropagation
Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari
pembelajaran network melalui backpropagatian adalah menemukan suatu
penyelesaian
*
w pada suatu permasalahan optimisasi ) ( min arg w Q
W w
yaitu
( ) 2 / )) , ( [( ) ( min arg
2 *
w w w X f Y E Q
W w

, (3.2.1)
Bab III. Feedforward Neural Networks

55
dengan
*
w adalah indeks dari bobot network yang optimal. Untuk kesamaan
notasi maka untuk selanjutnya output network pada Persamaan (3.1) akan ditulis
dalam bentuk

,
_

q
j
j j
x F f o
1
0
) ( ) , ( w x , (3.2.2)
dengan ) , , , (
1 0 p
x x x K x adalah input-input network, ) , ( w adalah
bobot-bobot network secara keseluruhan, ) , , , (
1 0

q
K adalah bobot-
bobot dari lapis tersembunyi ke output, dan ) , , , (
2 1

q
K adalah bobot-
bobot network dari input ke lapis tersembunyi, ) , , , (
1 0

jp j j j
K .
Dengan penalti kuadrat error, pembelajaran pada network harus sampai
pada
*
w , yang menyelesaikan
( ) 2 / )] | ( ([ ] 2 / )) , ( [( min
2 2
X Y E Y E X f Y E
W w

w
) ) 2 / )] , ( ) | ( ([
2
w X f X Y E E + . (3.2.3)
Menemukan
*
w merupakan permasalahan yang secara tepat sama dengan
mendapatkan parameter-parameter dari suatu pendekatan least squares yang
optimal untuk ) | ( X Y E , ekspektasi bersyarat dari Y diberikan X .
Secara khusus, jika diberikan pasangan input dan target ) , (
t t
X Y dengan
n t , , 2 , 1 K , yang diambil secara random dari suatu populasi tertentu, maka
n
w
adalah estimator least squares yang nonlinear pada permasalahan optimisasi


n
t
t t n
W w
X f Y n Q
1
2 1
2 / )) , ( ( ) ( min arg w w . (3.2.4)
Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap dalam
literatur-literatur statistik dan ekonometrika. Pada bagian ini akan diberikan kajian
teoritis berkaitan dengan sifat-sifat estimator backpropagation
n
w , khususnya
tentang konsistensi estimator tersebut. Sebagian besar kajian ini dapat dilihat
pada White (1989a, 1989b).
Misalkan bahwa estimator-estimator m dari
n
w adalah memenuhi


n
t
s a
n t
Z m n
1
. . 1
0 ) , ( w , dengan
l l v
m : . Estimator-estimator m
secara umum adalah konsisten untuk suatu penyelesaian
*
w pada persamaan
Bab III. Feedforward Neural Networks

56
0 )) , ( ( w Z m E
t
. Pendekatan stokastik memberikan suatu metode alternatif
untuk mengestimasi
*
w . Hasil-hasil untuk backpropagation selanjutnya meng-
ikuti suatu kasus khusus dari estimasi m secara rekursif.
Berikut ini adalah beberapa notasi yang digunakan. Untuk suatu vektor
1 v yaitu ) , , (
1

v
z z K z , dapat ditulis bahwa

v
i i
z
1
2 / 1 2
) ( | | z . Untuk
l
W
dan } {
n
w suatu barisan vektor 1 l , W w
n
berarti bahwa
0 | | inf

w w
n W w
untuk n . Kita tulis
n
w ketika | |
n
w .
Untuk
l

*
w dan 0 > , } | :| {
* *

< w w w S .
Proposisi 3.2.1. (White, 1989b) Misalkan } {
n
Z adalah suatu barisan vektor
1 v yang random IID sedemikian hingga < < | |
n
Z . Misalkan
l l v
m : adalah dapat diturunkan secara kontinu pada
l v
dan
anggap bahwa untuk setiap w dalam
l
, < )) , ( ( ) ( w Z
n
m E w M . Misalkan
} {
+

n
adalah suatu barisan menurun sedemikian hingga


1 n
n
,
<

) sup( lim
1
1
1
n n n
dan

<
1 n
d
n
untuk suatu 1 > d . Definisikan suatu
estimator m rekursif )
~
, (
~ ~
1 1
+
n n n n n
m w Z w w untuk ) , 2 , 1 ( K n , dengan
l

0
~
w adalah sebarang.
(a). Anggap bahwa ada
l
Q: dapat diturunkan secara kontinu dua kali
sedemikian hingga 0 ) ( ) ( w w M Q untuk semua w dalam
l
. Maka
salah satu } 0 ) ( ) ( : {
~ *
w w w W w M Q
n
atau
n
w
~
dengan
probabilitas 1.
(b). Anggap bahwa
l

*
w adalah sedemikian hingga 0 ]
~
Pr[
*
>

S
n
w
untuk 0 > . Maka 0 ) (
*
w M . Jika, sebagai tambahan, M adalah dapat
diturunkan secara kontinyu dalam persekitaran dari
*
w dengan
) (
* *
w M M terbatas, dan jika ) ) , ( ) , ( (
* * *
w Z w Z J
n n
m m E adalah
terbatas dan definit positif, maka
*
M mempunyai semua nilai eigen
dalam setengah sisi sebelah kiri.
(c). Anggap bahwa kondisi dari bagian (a) terpenuhi, bahwa ) ( ) ( w w Q M ,
bahwa ) (w Q mempunyai titik-titik stasioner yang terisolasi, dan bahwa
kondisi-kondisi dari bagian (b) terpenuhi untuk setiap
* *
W w
} 0 ) ( : { w w Q .
Bab III. Feedforward Neural Networks

57
Maka untuk n salah satu
n
w
~
cenderung ke suatu minimum lokal dari
) (w Q dengan probabilitas 1 atau
n
w
~
dengan probabilitas 1.
Untuk mengaplikasikan Proposisi 3.2.1 pada metode backpropagation di
FFNN dengan satu lapis tersembunyi, diperlukan beberapa kondisi formal yang
sesuai.
Asumsi 3.2.1. Suatu barisan pelatihan atau training } ) , ( {
n n n
X Y Z adalah
suatu barisan vektor random IID sedemikian hingga < < | |
n
Z .
n
Y
mempunyai nilai-nilai yang berada dalam
p
,
n
X mempunyai nilai-nilai dalam
,
r
p r, , p r v + .
Asumsi 3.2.2. Diberikan input
r
x , output network diberikan dengan

k
o

+
q
j kj j j k k
F
1 0
) ) ( ( x ) , ( w x
k
f , p k , , 2 , 1 K , dengan :
k
F
dan ] 1 , 0 [ :
j
. Suatu fungsi ) , , (
1

p
F F F K , ) , , (
1

q
K mem-
punyai elemen-elemen yang dapat diturunkan secara kontinu sampai orde 2
pada . Kita tulis
l
) , ( w , p r p q l ) ( + dengan ) , , (
1

q
K ,
) , , , (
1 1 0

jr j j j
K , ) , , , (
2 1

p
K , ) , , , (
1 0

kq k k k
K .
Perlu dicatat bahwa fungsi
k
F dan
j
dapat semuanya berbeda dan
tambahan suatu bias pada lapis tersembunyi dengan mencantumkan
0 k
. Bias
pada lapis input dilakukan dengan menggunakan 1
0

n
X . Fungsi
k
F tidak harus
suatu pemetaan ke suatu unit interval; boleh juga memilih
k
F sebagai suatu
fungsi identitas.
Asumsi 3.2.3. } {
+

n
adalah suatu barisan menurun sedemikian hingga
(a).


1 n
n
,
(b). <

) sup( lim
1
1
1
n n
n
, dan
(c).

<
1 n
d
n
untuk suatu 1 > d .
Bab III. Feedforward Neural Networks

58
Berikut adalah notasi-notasi yang digunakan. Misalkan ) , , (
1

p
f f K f ,
dan misalkan f adalah suatu matriks Jacobian l p dari f terhadap w.
Misalkan )) ( ( ) ( w w
n
q E Q , dengan 2 / )) ( ( ) ) ( ( ) ( w w w
n n n n n
f Y f Y q
[sedemikian hingga )) ( ( ) ( ) ( w w w
n n n n
f Y f q ], dan tetapkan
) (
* *
w
n n
q q . Tulis )
~
(
~
1

n n n
f f w dan )
~
(
~
1

n n n
f f w .
Teorema 3.2.1. (White, 1989b) Diberikan Asumsi 3.2.13.2.3, definisikan suatu
estimator backpropagation
)
~
(
~
~ ~
1 n n n n n n
f Y f +

w w , K , 2 , 1 n . (3.2.5)
dengan
0
~
w adalah sembarang. Maka salah satu dari
* ~
W w
n
} 0 )) ( ( : { w w
n
q E dengan probabilitas 1 atau
n
w
~
dengan
probabilitas 1. Jika, sebagai tambahan, ) (w Q mempunyai titik-titik stasioner
yang terisolasi sedemikian hingga ) ' (
* * *
n n
q q E J adalah definit positif untuk
setiap

W w , maka salah satu
n
w
~
konvergen ke suatu minimum lokal dari
) (w Q dengan probabilitas 1 atau
n
w
~
dengan probabilitas 1.
Dengan demikian estimator backpropagation adalah divergen atau
konvergen ke suatu titik stasioner dari ) (w Q . Jika titik-titik stationer ini memenuhi
suatu kondisi yang dapat diidentifikasi secara lokal, maka backpropagation akan
divergen atau konvergen ke suatu minimum lokal dari ) (w Q . Kondisi yang dapat
diidentifikasi ini mengesampingkan kondisi tepat dalam ) (w Q , disebabkan oleh
input atau unit di lapis tersembunyi yang redundant. Kondisi dapat diidentifikasi
secara lokal tidak mengesampingkan suatu kemungkinan akan diperolehnya
minimum global yang berganda.
Hasil ini memformalkan keterbatasan dari backpropagation, yaitu dapat
berhenti pada minimum lokal atau pada titik-titik belok, atau divergen. Sehingga
adalah masuk akal untuk menetapkan nilai-nilai yang berbeda untuk
0
~
w ,
misalkan saja
i
0
w ) , , 2 , 1 ( N i K , mengaplikasikan suatu algoritma untuk
mendapatkan
i
n
w
~
) , , 2 , 1 ( N i K , dan kemudian memilih suatu estimator yang
memberikan nilai terkecil untuk

n
t
i
n t
i
n
q n Q
1
1
)
~
(
~
w . Ini biasanya menghasilkan
suatu estimasi yang konsisten untuk suatu minimum lokal, walaupun tidak ada
Bab III. Feedforward Neural Networks

59
jaminan bahwa hasil itu akan mencapai nilai yang dekat dengan suatu minimum
global.
Untuk kelengkapan terhadap jaminan konvergen dari estimator pada
pembelajaran network seperti pada Persamaan (3.2.4) diberikan teorema
sebagai berikut.
Teorema 3.2.2. (White, 1989b) Misalkan ) , F , ( P adalah suatu ruang
probabilitas lengkap yang didefinisikan pada suatu barisan variabel random yang
IID , : ( } {
v
t t
Z ) , 2 , 1 K t , v } , 2 , 1 { K . Misalkan W l
v
:
adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-
himpunan kompak dari
s
, s , ) , ( w l adalah ukuran-
v
(dengan
v
adalah
suatu -field Borel dengan himpunan-himpunan terbuka dari
v
), dan untuk
setiap z dalam
v
, ) , ( z l adalah kontinu pada W. Anggap selanjutnya bahwa
ada
+

v
d : sedemikian hingga untuk semua w dalam W, ) ( | ) , ( | z d z l w
dan < )) ( (
t
Z d E (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat
diintegralkan).
Maka untuk setiap K , 2 , 1 n ada suatu penyelesaian
n
w untuk per-
masalahan


n
t t n W w
l n Q
1
1
) , ( ) (

min w Z w dan , . .
*
P s a
n
W w dengan
) ( ) ( : {
* * *
w w W w W Q Q untuk semua } W w , )) , ( ( ) ( w Z w
t
l E Q .

3.3 Sifat Normalitas Asimtotis Estimator Backpropagation
Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis)
n
w adalah konsep-konsep tentang konvergensi dalam distribusi seperti yang
telah ditulis pada Bab II. Distribusi asimtotis
n
w tergantung pada sifat dasar
*
W .
Secara umum
*
W mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian
datar yang terisolasi. Jika konvergensi ke suatu bagian datar terjadi, maka bobot-
bobot taksisran
n
w mempunyai suatu distribusi asimtotis yang dapat dianalisis
dengan menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi
secara parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian
gabungan asimtotis atau limiting mixed Gaussian (LMG) seperti yang
Bab III. Feedforward Neural Networks

60
dikenalkan oleh Phillips. Ketika
*
w adalah unik secara lokal, model dikatakan
teridentifikasi secara lokal dan bobot-bobot taksiran
n
w yang konvergen ke
*
w
mempunyai distribusi normal multivariat asimtotis.
Berikut ini adalah teorema-teorema yang berkaitan dengan kondisi-
kondisi yang memastikan bahwa
n
w mempunyai distribusi normal multivariat
asimtotis.
Teorema 3.3.1. (White, 1989b) Misalkan ) , F , ( P , } {
t
Z , W dan l adalah
seperti dalam Teorema 3.2.2, dan anggap bahwa P s a
n
. .
*
w w dengan
suatu elemen terisolasi pada
*
W bagian dalam (interior) untuk W.
Anggap sebagai tambahan bahwa untuk setiap z dalam
v
, ) , ( z l
adalah dapat diturunkan secara kontinu sampai orde 2 pada

W; bahwa
< )) , ( ) , ( (
* *
w w
t t
Z l Z l E ; bahwa setiap elemen dari l
2
adalah
terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa
)) , ( (
* 2 *
w A
t
Z l E dan ) ) , ( ) , ( (
* * *
w w B
t t
Z l Z l E matriks-matriks non-
singular berukuran ) ( s s , dengan dan
2
adalah notasi dari gradien ) 1 ( s
dan operator-operator Hessian ) ( s s terhadap w.
Maka ) , ( ) (
* *
C 0 w w
d
n
n , dengan
1 1 *
A B A C . Jika
sebagai tambahan, setiap elemen l l adalah terdominasi pada W oleh suatu
fungsi yang dapat diintegralkan, maka P s a
n


. .

C C , dengan
1 1

n n n n
A B A C , dan

n
Z l
n
t n t
n

1
2
) , (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B .
Proposisi 3.3.1. (White, 1989a) Misalkan kondisi-kondisi Proposisi 3.2.1(a,b)
terpenuhi, dan anggap juga bahwa < < | ) , ( | w
n
Z m a.s. untuk semua w
dalam
s
. Misalkan

adalah nilai maksimum bagian real dari nilai-nilai eigen

M dan anggap

2
1
< . Definisikan )] , ( var[ ) ( w w
n
Z m J dan anggap J
adalah kontinyu pada suatu persekitaran dari
*
w . Tetapkan ) (

w J J dan
1
n
n
.
Bab III. Feedforward Neural Networks

61
Maka suatu barisan elemen-elemen random ) (a T
n
dari ] 1 , 0 [ l C
R
dengan
norm sup , didefinisikan dengan
2 / 1
] [ 1 ] [
2 / 1
] [
) ])( [ (
) (
n
S S na na
n
S
a T
na na na
n

+
+
, ] 1 , 0 [ a ,
dengan )
~
(

w w
n n
n S , konvergen dalam distribusi ke suatu proses Markov
Gaussian G dengan
d t a a G
a
) )( (ln exp[ )] )( exp[(ln ) (
] , 0 (
I M M I + +

W ) (t , ] 1 , 0 ( a ,
dengan W adalah suatu gerak Brownian dalam
s
, dengan W 0 ) 0 ( , dan
( E W 0 )) 1 ( , serta ( E W ) 1 ( W ) ) 1 (

J . Secara khusus,
) , ( )
~
(
2 / 1
F 0 w w
d
n
n ,
dengan

+ +

] 1 , 0 (
'
]) )[ (ln exp( ]) )[ (ln exp( dt t t I M J I M F adalah suatu
penyelesaian yang unik pada persamaan
) 2 / 1 ( ) 2 / 1 (
'
+ + +

M F F M

J .
Ketika

M adalah simetrik,
1
PHP F , dengan P adalah matriks ortogonal
sedemikian hingga

M P
1
dengan suatu matriks diagonal yang
terdiri atas suatu nilai-nilai eigen (real), ) , , (
1 s
K , dari

M dalam urutan
menurun, dan H adalah suatu matriks s s dengan elemen-elemen
) 1 ( +

j i
ij
ij
K
H

, s j i , , 2 , 1 , K ,
dengan P J P K


1
] [
ij
K .
Untuk menerapkan Proposisi 3.3.1 pada backpropagation, diperlukan
penguatan Asumsi 3.2.2 dan 3.2.3 seperti yang dijelaskan berikut ini.
Asumsi 3.3.1. Asumsi 3.2.2 terpenuhi, dan elemen-elemen dari F dan turunan-
turunan dari F dan adalah terbatas.
Bab III. Feedforward Neural Networks

62
Secara tegas, kondisi ini mengenyampingkan suatu kasus dimana F
adalah suatu pemetaan identitas. Bagaimanapun, gunakan ) (
k
F untuk
< | | dan
k
F adalah fungsi yang halus (smooth) dan terbatas untuk
> | | ( besar), membolehkan pendekatan yang identik untuk hasil-hasil yang
diperoleh ketika
k
F adalah suatu pemetaan identitas, diberikan batasan pada
t
Y .
Asumsi 3.3.2. Untuk K , 2 , 1 n ,
1
n
n
, 0 > .
Teorema 3.3.2. (White, 1989b) Diberikan Asumsi 3.2.1, 3.3.1 dan 3.3.2,
definisikan
n
w
~
seperti pada Persamaan (3.2.5). Anggap bahwa
~ . .
w w
s a
n
,

w suatu titik stasioner yang terisolasi pada ) (w Q dengan

J definit positif.
Lebih lanjut, anggap bahwa
1
) 2 (

> , dengan 0 >

adalah nilai eigen


terkecil dari

Q
2
) (
2
w Q .
Maka dengan ) (a T
n
seperti dalam Proposisi 3.3.1, ) (a T
n
konvergen
dalam distribusi ke suatu proses Markov Gaussian G dengan didefinisikan
dengan
]) )[ exp((ln ) (
2
Q a a G I



] , 0 (
2
)] )( exp[(ln
a
Q t I d W ) (t , ] 1 , 0 ( a ,
dengan W adalah suatu gerak Brownian dalam
s
, dengan W 0 ) 0 ( , dan
( E W 0 )) 1 ( , serta ( E W ) 1 ( W ) ) 1 (

J . Secara khusus,
) , ( )
~
(
2 / 1
F 0 w w
d
n
n ,
dengan
1
PHP F , dan P adalah matriks ortogonal sedemikian hingga
1
P

Q
2
dengan suatu matriks diagonal yang terdiri atas suatu nilai-
nilai eigen ) , , (
1 s
K dari

Q
2
dalam urutan menurun (semakin kecil), dan H
adalah suatu matriks s s dengan elemen-elemen
) 1 (
2
+

j i
ij
ij
K
H

, s j i , , 2 , 1 , K ,
dengan P J P K


1
] [
ij
K .
Berdasarkan hasil-hasil teori di atas, dengan demikian dapat dijelaskan
bahwa backpropagation menghasilkan estimator dengan perilaku asimtotis yang
Bab III. Feedforward Neural Networks

63
dapat digambarkan secara tepat oleh suatu proses Gaussian tertentu. Hal ini
memberikan kemungkinan untuk melakukan uji hipotesis tentang kekuatan
hubungan dalam networks, yang mencakup hipotesis tentang relevansi atau
signifikansi variabel-variabel input dan unit-unit di lapis tersembunyi.
White (1989a) telah melakukan kajian teoritik tentang perbaikan hasil
pembelajaran pada networks. Dalam hal ini, teknik rekursif murni dari back-
propagation dihilangkan. White membuktikan bahwa metode pembelajaran untuk
menyelesaikan Persamaan (3.2.4) secara lokal untuk performansi kuadrat
kesalahan adalah relatif efisien secara asimtotis dibanding metode back-
propagation. Berikut ini adalah beberapa teorema dihasilkan dalam kajian
tersebut.
Teorema 3.3.3. (White, 1989a). Misalkan
s s
M : mempunyai nol unik

w
bagian dalam untuk suatu himpunan kompak yang konvek
s
W dan anggap
M dapat diturunkan secara kontinu pada W dengan

M terhingga dan
nonsingular. Misalkan , ( ) , F P adalah suatu ruang probabilitas, dan anggap
ada suatu barisan } : {
s
n
M W sedemikian hingga untuk setiap w
dalam W, ) , ( w
n
M adalah measureable- F dan untuk setiap w dalam
) , ( , w
n
M dapat diturunkan secara kontinu pada W, dengan Jacobian
) , ( w M
n
. Anggap bahwa untuk suatu matriks definit positif

B ,
) , ( ) , (
2 / 1
B 0 w
d
n
M n ,
dan bahwa 0 ) ( ) , ( w w M M
n
, 0 ) ( ) , ( w w M M
n
a.s. ) ( P secara
seragam pada W.
Misalkan } :
~
{
s
n
w adalah suatu barisan yang dapat diukur sede-
mikian hingga
~ . .
w w
s a
n
dan )
~
(
2 / 1
w w
n
n adalah ) 1 (
p
O . Maka, dengan
)
~
, (
~
n n n
M M w dan )
~
, (
~
n n n
M M w ,
n n n n
M M
~ ~
~

1
w w adalah
sedemikian hingga

w w
. .

s a
n
dan
) , ( ) (
2 / 1
C 0 w w
d
n
n ,
dengan
'
1 1
A B A C ,

M A .
Bab III. Feedforward Neural Networks

64
Jika ada }
~
{
n
B sedemikian hingga

B B
. .
~
s a
n
, maka dengan
n n
M
~ ~
A diperoleh bahwa
'
1 1
~ ~ ~ ~

n n n n
A B A C

C
. .s a
.

Kegunaan dari Teorema 3.3.4 adalah bahwa
n
w dapat menghasilkan
suatu perbaikan atas
n
w
~
, yaitu dalam hal mempunyai matrik kovarians asimtotis
yang lebih kecil.
Teorema 3.3.4. (White, 1989a). Misalkan kondisi-kondisi dari Teorema 3.3.3
terpenuhi dengan

w suatu nol yang terisolasi pada 0 )) , ( ( ) ( w w


n
Z M E M ,
dan misalkan W adalah suatu persekitaran kompak yang konvek dari

w .
Tetapkan


n
t t n
Z m n M
1
1
) , ( ) , ( w w sedemikian hingga ) , ( w
n
M

n
t t
Z m n
1
1
) , ( w , dan anggap bahwa m terdominasi pada W oleh suatu
fungsi yang dapat diintegralkan. Misalkan
n
w
~
adalah suatu estimator- m yang
rekursif dan definisikan
n n n n
M M
~ ~
~

1
w w , K , 2 , 1 n . Maka kesimpulan-
kesimpulan dari Teorema 3.3.3 terpenuhi dan

C F adalah semidefinit positif.

3.4 Uji Hipotesa untuk Parameter Model Neural Networks
Pada bagian sebelumnya telah ditunjukkan bahwa penggunaan satu
tahap Nonlinear Least Squares (NLS) Newton-Raphson dari estimator back-
propagation menghasilkan suatu estimator yang ekuivalen secara asimtotis
dengan NLS. Suatu kenyataan bahwa

C F semidefinit positif adalah suatu
alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran konsolidasi,
karena
n
w mempunyai presisi asimtotis yang sama atau lebih besar daripada
n
w
~
. Dengan demikian uji hipotesa berdasarkan
n
w adalah lebih bermanfaat dari
pada berdasarkan
n
w
~
.
Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaik-
nya dilakukan dengan menggunakan
n
w . Suatu uji tentang relevansi
(signifikansi) input yang hipotesisnya dapat dinyatakan dengan 0 Sw

:
0
H
melawan 0 Sw

:
1
H , dapat dilakukan berdasarkan pada versi-versi statistik
Wald, Lagrange multiplier, dan Likelihood ratio.
Bab III. Feedforward Neural Networks

65
Berikut ini adalah Corollary, Proposisi dan Teorema yang diperlukan
untuk menurunkan dan membuktikan Teorema untuk statistik Wald pada
parameter model NN.
Corollary 3.4.1. (White, 1999) Misalkan } {
n
X adalah suatu barisan vektor
random 1 k sedemikian hingga ) , 0 (
2 / 1
I X V
d
n n
, dengan } {
n
V dan } {
1
n
V
adalah ) 1 ( O . Misalkan } {
n
Y adalah suatu barisan ) 1 ( O dari matriks (non
stokastik) k q dengan rank baris penuh q untuk semua n cukup besar,
seragam dalam n. Maka barisan
n
X { }
n
Y adalah sedemikian hingga
) , (
2 / 1
I 0 N Y X
d
n n n
,
dengan
n n n n
X V X dan
n
dan
1
n
adalah ) 1 ( O .
Proposisi 3.4.1. (White, 1999) Misalkan
l k
g : adalah kontinyu pada
suatu himpunan kompak
k
C . Anggap bahwa } {
n
Y adalah suatu barisan
vektor random 1 k dan } {
n
Z adalah suatu barisan vektor 1 k sedemikian
hingga 0
p
n n
Z Y , dan untuk semua n cukup besar,
n
Z adalah bagian
dalam C, secara seragam dalam n. Maka 0 ) ( ) (
p
n n
g g Z Y .
Teorema 3.4.1. (White, 1999) Misalkan ) , 0 (
2 / 1
k
d
n n
N I Y V

, dan anggap
bahwa ada
n
V

yang semidefinit positif dan simetrik sedemikian hingga


0


p
n n
V V , dengan
n
V adalah ) 1 ( O , dan untuk semua n cukup besar,
0 ) det( > >
n
V . Maka
2

k
d
n n n
Y V Y .

Pada akhirnya, dapat dikonstruksi teorema baru yang berkaitan dengan
statistik Wald yang digunakan untuk pengujian hipotesis pada parameter model
NN dapat dikonstruksi seperti berikut ini.
Teorema 3.4.2. Misalkan kondisi-kondisi pada Teorema 3.3.3 di atas terpenuhi,
yaitu
Bab III. Feedforward Neural Networks

66
(i) ) , ( ) (
2 / 1
I 0 w w C

d
n
n , dengan
'
1 1
A B A C

, dan
1

C
adalah ) 1 ( O .
(ii) Ada suatu matriks semidifinit positif dan simetris
n
B

sedemikian hingga

B B
n

0
p
. Maka

C C
n

0
p
, dengan
1 1

n n n n
A B A C ,
n
, Z l
n
t n t
n

1
2
) (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B ,
Dan, misalkan k q ) ( rank S . Maka dibawah s H

Sw :
0
,
(i) ) , ( ) (
2 / 1
I 0 s w S
d
n n
n , dengan


'
n
S SC '
'
S A B SA
1 1
.
(ii) Suatu statistik Wald,
2 1
) (

) (
q
d
n n n n
n W

s w S s w S ,
dengan '
n n
S C S

.
Bukti: Dengan menggunakan Corollary, Proposisi dan Teorema di atas,
diperoleh pembuktian untuk Teorema 3.4.2 sebagai berikut.
(i) Di bawah ,
0
H )

w w S( s w S
n n
, didapatkan
) ( ) (
2 / 1 2 / 1
2 / 1 2 / 1


w w C SC s w S
n n n n
n n .
Mengikuti Corollary 3.4.1, dengan S A
n
dan ) (

w w b
n n
n ,
sehingga diperoleh ) , ( ) (
2 / 1
I 0 s w S
d
n n
n .
(ii) Dari Teorema 3.3.3 diketahui bahwa 0

.

s a
n
C C , akibatnya
0


p
n
C C . Mengikuti Proposisi 3.4.1, dengan )

n n
g C dan
) (

C g
n
, sehingga didapatkan 0


p
n n
. Diberikan hasil
dalam bagian (i), yaitu ) , ( ) (
2 / 1
I 0 s w S
d
n n
n , maka dengan
menggunakan Teorema 3.4.1 diperoleh

2 1
) (

) (
q
d
n n n n
n W

s w S s w S .
Dengan demikian, suatu uji tentang relevansi (signifikansi) input yang
hipotesisnya dapat dinyatakan dengan 0 Sw

:
0
H melawan 0 Sw

:
1
H ,
Bab III. Feedforward Neural Networks

67
dapat dilakukan dengan mengaplikasikan Teorema 3.4.2 ini. Sebagai contoh,
statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu
n n n
n W w S S SC S w ) (

1
,
dengan

C seperti yang dijelaskan sebelumnya. Realisasi dari variabel random


ini tidak dapat dihitung, karena meskipun pernyataan secara analitis untuk

C
ada, suatu keadaan tentang hukum probabilitas P dibutuhkan untuk evaluasi
secara numerik. Untungnya, suatu taksiran

C dapat dikonstruksi, yaitu


1 2 1 2



n n n n
Q Q J C dengan ) , (

2 2
n n n
Q Q w , dan


n
t t t t t n
f f n
1
1



J
dengan ) (

n t t
f f w , ) (
n t t t
f Y w . Uji statistik Wald
n
W

adalah lebih
mudah dihitung daripada
n
W
~
karena
n
C

lebih mudah dihitung. Ketika kondisi-


kondisi aturan standar terpenuhi, maka
2 1
)

(
q
d
n n n
n

w S S C S S w ,
di hipotesis
0
H yang menyatakan bahwa input tidak relevan.


- 68 -
BAB IV
FFNN UNTUK PERAMALAN RUNTUN WAKTU

Peramalan runtun waktu merupakan salah satu bidang utama dalam
aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model
runtun waktu yang nonlinear. Jika diberikan
t
adalah suatu himpunan informasi
yang didefinisikan
t
} 0 , ; 0 , { >

i X j Y
i t j t
, n t , , 2 , 1 K , (4.1)
yang menyatakan semua variabel lag
t
Y dan suatu vektor variabel eksogen
t
X ,
maka proses pemodelan runtun waktu secara umum bertujuan mendapatkan
suatu pendekatan yang baik untuk ) (
t
I f sedemikan hingga
) ( ] | [
t t t
I f Y E . (4.2)
Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi
pemodelan yang banyak dilakukan pada kelompok model runtun waktu
nonlinear. Secara ringkas tahapan tersebut adalah :
(i). Uji linearitas
t
Y dengan menggunakan informasi
t

Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak
ada satu tes yang mampu melakukan semua kemungkinan nonlinear
tersebut, sehingga beberapa tes mungkin diperlukan.
(ii). Jika linearitas ditolak, gunakan beberapa alternatif model parametrik
nonlinear dan/atau model-model nonparametrik.
Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk
tentang model nonlinear yang sebaiknya digunakan.
(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)
dan dibandingkan pada data validasi (out-of-sample).
Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu
model tunggal terbaik yang dibutuhkan, maka model yang memberikan
Bab IV. FFNN untuk Peramalan Runtun waktu

69
hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi
kembali pada semua data yang ada.

Pada bab ini akan diberikan hasil-hasil kajian teori dan terapan tentang uji
nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan
FFNN untuk peramalan runtun waktu.

4.1 Uji Nonlinearitas pada Data Runtun waktu
Seperti yang dijelaskan pada tahapan pemodelan runtun waktu nonlinear
oleh Terasvirta dkk. (1994), bahwa tahap pertama sebelum menerapkan suatu
model runtun waktu nonlinear (seperti FFNN) adalah melakukan uji linearitas
pada runtun waktu. Ada beberapa uji nonlinearitas yang telah dikembangkan,
antara lain uji RESET, bispectral, BDS, dan uji tipe tipe Langrange Multiplier
(LM). Kajian perbandingan kebaikan uji-uji ini dapat dilihat pada Lee dkk. (1993).
Pada bagian ini akan dipaparkan hasil-hasil kajian teori dan terapan
berkaitan dengan uji linearitas yang dikembangkan dari model neural network,
yang dikenal dengan uji linearitas tipe LM dengan ekspansi Taylor. Kajian teori
difokuskan pada penurunan uji statistik. Sedangkan kajian terapan lebih
menitikberatkan pada berfungsinya uji statistik, dan mengevaluasi adanya
kemungkinan kelemahan dari uji statistik tersebut. Secara lengkap hasil dari
kajian ini telah dipublikasikan dan dapat dilihat di Suhartono dan Subanar (2004)
serta Subanar dan Suhartono (2005, 2006a).

4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier (LM) dengan
Ekspansi Taylor
Perhatikan model nonlinear
t t t t
u I I Y + + ) ( (4.1.1)
dengan ~
t
u IIDN ) , 0 (
2
, )
~
, 1 (
t t
I I , ) , , (
~
1

p t t t
Y Y I K , ) , , , (
1 0

p
K ,
)
~
, (
0
dan ) , , (
~
1

p
K . Dalam model (4.1.1) ini,
t
I dibatasi hanya
variabel lag
t
Y dan tidak melibatkan variabel eksogen
t
X . Misal diberikan
Bab IV. FFNN untuk Peramalan Runtun waktu

70
) ( ) (
0 t t
I I , (4.1.2)
dengan (lihat Terasvirta dkk. (1993))
2
1
1
)} exp( 1 { ) ( +

t t
I I . (4.1.3)
Dengan demikian persamaan (4.1.1) dapat diinterpretasikan sebagai suatu
model autoregresif nonlinear dengan konstanta ) (
0 0 t
I + , yang variatif
terhadap waktu dan berubah secara halus dari ) 2 (
0 0
ke ) 2 (
0 0
+
dengan
t
I .
Model (4.1.1) adalah kasus khusus dari model neural networks dengan
satu lapis tersembunyi, yaitu (lihat Terasvirta dkk. (1993))

+ +
q
j
t t j j t t
u I I Y
1
2
1
0
} ) ( { , (4.1.4)
dengan q adalah banyaknya unit neuron pada lapis tersembunyi. Secara visual,
arsitektur model neural networks ini dapat dilustrasikan seperti pada Gambar 4.1.
Perhatikan persamaan (4.1.1) dengan (4.1.2) dan uji hipotesis bahwa
t
Y
adalah linear, yaitu
t t t
u I Y + dengan asumsi bahwa proses stasioner. Jadi
hipotesis nol dapat didefinisikan sebagai 0 :
0 0
H . Untuk model (4.1.4)
hipotesis nolnya adalah
0 :
0 02 01 0

q
H L ,
yang disebut hipotesis linearitas dari uji neural networks melawan nonlinearitas
yang terabaikan (lihat White (1989c) dan Lee dkk. (1993)). Selanjutnya, jika
diberikan bahwa 0 ) 0 ( maka hal ini berimplikasi pada kemungkinan lain untuk
hipotesis nol untuk linearitas, yaitu
0 :
*
0
H (4.1.5)
melawan hipotesis alternatif 0 .







Bab IV. FFNN untuk Peramalan Runtun waktu

71

) , , , (
1 0

p
K


) , , , (
1 0

p j
K ) , , (
0 01 0

q j
K




M Lapis Output
(Va riab el Depend en)

M

Lapis Input
(La g Va ria b el Dep end en)

Lapis Tersembunyi
(q unit neuron)


Gambar 4.1. Arsitektur model neural networks satu lapis tersembunyi pada
persamaan (4.1.4).

Hipotesis (4.1.5) memberikan suatu titik awal yang menarik untuk
mempelajari permasalahan uji linearitas dalam kerangka pengujian LM.
Perhatikan kembali bahwa model (4.1.1) hanya diidentifikasi di bawah alternatif
0 . Seperti Saikkonen dan Luukkonen (1988) dan Luukkonen dkk. (1988),
tulisan ini mencoba menyelesaikan masalah ini dengan mengganti dalam
(4.1.1) dengan pendekatan ekspansi Taylor pada 0 . Pendekatan ekspansi
Taylor yang paling mudah adalah suatu pendekatan order pertama. Dari (4.1.2)
dan (4.1.3) dapat ditunjukkan bahwa turunan pertama dari (4.1.2) adalah

2
)} exp( 1 {
) exp( .
) (
t
t t
t
I
I w
I

,
sehingga diperoleh

t
t
t
I
I
I
4
1
2
0
)} 0 exp( 1 {
) 0 exp( .
) (
+

. (4.1.6)
t
y
1

1 t
y

p t
y


Bab IV. FFNN untuk Peramalan Runtun waktu

72
Dengan demikian pendekatan ekspansi Taylor orde pertama, yang
dinotasikan dengan
1
t , yaitu ) (
1 0 t
I t
t t
I I
0 4
1
0
) 0 ( bergabung
dengan bagian linear dari model (4.1.1), sehingga semua informasi tentang
nonlinearitas tereliminir. Hal ini merupakan cara lain untuk melihat bahwa (4.1.1)
dengan (4.1.2) dan model linear autoregresi order p adalah alternatif yang
secara lokal sama dengan dasar (4.1.5).
Untuk mengatasi permasalahan tereliminasinya informasi tentang non-
linearitas diatas, dilakukan hal seperti dalam Luukkonen dkk. (1988) dan gantikan
dalam (4.1.1) melalui pendekatan ekspansi Taylor dengan orde yang lebih
tinggi, orde ketiga, yang dinotasikan dengan
3
t untuk menurunkan suatu uji yang
tepat. Diberikan


+
p
i
p
j
j i
j i
p
i
i
i
t j
I t
0 0
2
1
3
) 0 (
2
1 ) 0 (
) 0 ( ) (

+
p
i
p
j
p
k
k j i
k j i 0 0 0
3
) 0 (
6
1

(4.1.7)
dan gantikan dalam (4.1.1) oleh (4.1.6).
Berikut ini adalah langkah-langkah untuk mendapatkan pendekatan
ekspansi Taylor orde ketiga. Pertama, persamaan (4.1.2) dapat ditulis kembali
dalam bentuk

2
1
1
)} exp( 1 { ) ( +

t t
I I

2
1
1
1 1 0
])} [ exp( 1 { + + + +

p t p t
Y Y L .
Turunan pertama dari persamaan ini adalah

i t
p t p t
p t p t
i
Y
y y
y y



+ + + +
+ + +

.
])} [ exp( 1 {
]) [ exp(
2
1 1 0
1 1 0

L
L


i t
t
t
Y
I
I

+

.
)} exp( 1 {
) exp(
2

.
Bab IV. FFNN untuk Peramalan Runtun waktu

73
Selanjutnya, turunan kedua dari (4.1.2) adalah

1
1
]
1

+ + + +
+ + +



i t
p t p t
p t p t
j j i
Y
Y Y
Y Y
.
])} [ exp( 1 {
]) [ exp(
2
1 1 0
1 1 0
2


L
L


{ }
j t i t
t
t t t
Y Y
I
I I I

+
+ +
.
)} exp( 1 {
) 2 exp( 2 )} exp( 1 )]{ exp( [
3


.

j t i t
t
t t
Y Y
I
I I

+

.
)} exp( 1 {
)} 2 exp( ) {exp(
3


untuk 1 , j i .
Dengan demikian, turunan ketiga dari (4.1.2) ini adalah

1
1
]
1

j t i t
t
t t
k k j i
Y Y
I
I I
.
)} exp( 1 {
) 2 exp( ) exp(
3
3



k t j t i t
t
t t t
Y Y Y
I
I I I

+
+
.
)} exp( 1 {
)} 3 exp( ) 2 exp( 4 ) {exp(
4


,
untuk 1 , , k j i .
Dari hasil-hasil penjabaran di atas, pendekatan ekspansi Taylor pada
0 akan menghasilkan

j i

) 0 (
2
0
)} 0 exp( 1 {
)} 0 exp( ) 0 {exp(
3

+

j t i t
Y Y ,
dan
k t j t i t
k j i
Y Y Y

+
+

4
3
)} 0 exp( 1 {
)} 0 exp( ) 0 exp( 4 ) 0 {exp( ) 0 (


. 1 , , ,
8
1


k j i Y Y Y
k t j t i t
untuk
Jika 1 , j i dan 0 k diperoleh

j t i t
k j i
Y Y


8
1
3
) 0 (

.
Bab IV. FFNN untuk Peramalan Runtun waktu

74
Dengan demikian, model (4.1.1) menjadi
t
p
i
p
i j
p
j k
k t j t i t ijk
p
i
p
i j
j t i t ij t t
u Y Y Y Y Y I Y + + +




1 1
~
, (4.1.8)
dengan
~
adalah gabungan antara dengan koefisien-koefisien bagian linear
hasil pendekatan Taylor orde pertama,
j i ij ij
d
0
, dan
k j i ijk ijk
d
0

dengan
48
1

ijk ij
d d .
Jika 0
0
adalah suatu informasi dari model, sehingga
t t
I I
~

~

(bagian eksponensial tidak mengandung suatu konstanta), maka 0
ij
untuk
semua j i, . Dalam kasus ini, persamaan (4.1.8) tidak mempunyai suku orde
kedua. Hipotesis nol yang bersesuaian dengan (4.1.5) adalah
:
*
0
H , 0
ij
0
ijk
untuk ; , , 1 p i K ; , , p i j K p j k , ,K .
Dengan demikian, uji linearitas tipe LM melawan (4.1.1) terdiri dari deret orde
ketiga dari ekspansi Volterra (lihat Priestley, 1980) suatu fungsi nonlinear. Dalam
hal ini, uji hipotesis nolnya menyatakan bahwa koefisien-koefisien dari suku-suku
kuadratik dan kubik adalah sama dengan nol. Jika ada argumen yang
menyatakan bahwa fungsi tidak mengandung suatu konstanta, maka dalam hal
ini tidak ada suku kuadratik dalam ekspansi Taylor pada 0 .
Selanjutnya, perhatikan bahwa (4.1.4) merupakan bentuk dasar dari uji
neural networks. Jika 1 > q , (4.1.4) tidak secara global dapat diidentifikasi di
bawah hipotesis nol
0 :
1
*
0

q
H L (4.1.9)
ataupun di bawah hipotesis alternatif bahwa hipotesis nol adalah tidak benar.
Suatu konsekuensi dari ini adalah kenyataan bahwa penurunan suatu uji yang
dapat diterapkan untuk hipotesis nol pada (4.1.9) mengikuti argumen di atas
menghasilkan (4.1.8) dengan

q
h h hj hi ij ij
d
1 0 0
dan

q
h hk hj hi ijk ijk
d
1 0
.
Bab IV. FFNN untuk Peramalan Runtun waktu

75
Dengan demikian, uji linearitas berdasarkan dual (suku kuadratik dan kubik) dari
ekspansi Volterra tetap tidak berubah ketika proses pembangkitan data adalah
seperti (4.1.4) pengganti dari (4.1.1).
Uji ini tidak selalu tergantung pada asumsi bahwa fungsi squashing
dalam model neural networks adalah logistik. Seperti yang telah dikerjakan
Luukkonen dkk. (1988), uji yang sama akan dapat diperoleh dengan asumsi
bahwa
(i). ) (
t
I dalam (4.1.2) adalah suatu fungsi terbatas, ganjil, naik secara
monoton dengan suatu turunan ketiga berhingga pada suatu persekitaran
dari daerah asal, dan
(ii). 0 ) 0 ( , dan turunan parsial pertama dan ketiga dari pada nol adalah
tidak sama dengan nol.
Hal ini berimplikasi bahwa uji tersebut mempunyai kuasa (power) dibanding
beberapa model nonlinear, tidak hanya satu bentuk nonlinearitas yang dicirikan
dengan fungsi logistik. Fungsi logistik yang digunakan dalam menurunkan uji
disini disebabkan karena fungsi tersebut yang dipakai pada (4.1.4).
Implementasi praktis uji linearitas yang dikenalkan oleh Terasvirta dkk.
(1993), dapat dilakukan melalui dua statistik uji, yaitu uji
2
atau uji F . Prosedur
untuk mendapatkan uji
2
adalah sebagai berikut :
(i). Regresikan
t
Y pada
p t t
Y Y

, , , 1
1
K dan hitung nilai-nilai residual
t t t
Y Y u

.
(ii). Regresikan
t
u pada
p t t
Y Y

, , , 1
1
K dan m prediktor tambahan, dan
kemudian hitung koefisien determinasi dari regresi
2
R . Pada uji yang
dikenalkan oleh Terasvirta dkk. (1993), m prediktor tambahan ini adalah
suku kuadratik dan kubik yang merupakan hasil pendekatan ekspansi
Taylor seperti yang telah dijelaskan pada bagian 3 persamaan (4.1.8)
sebelumnya.
(iii). Hitung
2 2
nR , dengan n adalah banyaknya pengamatan yang
digunakan.
Bab IV. FFNN untuk Peramalan Runtun waktu

76
Dibawah hipotesis linearitas,
2
mendekati distribusi ) (
2
m , dengan m adalah
banyaknya prediktor tambahan. Kajian teoritik berkaitan dengan pendekatan
asimtotis
2 2

d
nR dapat dilihat White (1989c).
Sedangkan prosedur uji F untuk uji linearitas tipe LM ini adalah sebagai
berikut :
(i). Regresikan
t
Y pada
p t t
Y Y

, , , 1
1
K dan hitung nilai-nilai residual
t
u dan
hitung jumlah kuadrat residual
2
0

t
u SSE .
(ii). Regresikan
t
u pada
p t t
Y Y

, , , 1
1
K dan m prediktor tambahan, dan
kemudian hitung residual
t t t
u u v

dan jumlah kuadrat residual



2
1

t
v SSE . ( m dan prediktor-prediktor yang terlibat bervariasi untuk
suatu uji dengan uji yang lain, seperti yang ditunjukkan pada bagian
sebelumnya).
(iii). Hitung

) 1 /(
/ ) (
1
1 0
m p n SSE
m SSE SSE
F

, (4.1.10)
dengan n adalah banyaknya pengamatan yang digunakan.
Dibawah hipotesis linearitas, F mendekati distribusi F dengan derajat bebas
m dan ) 1 ( m p n . Penggunaan dari uji F menggantikan uji
2
ini
didasarkan oleh rekomendasi dari teori asimtotis dalam sampel kecil, yaitu
karena uji ini mempunyai sifat-sifat kuasa dan ukuran yang baik (Harvey, 1990).

4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier
(LM) dengan Ekspansi Taylor
Kajian terapan terhadap uji nonlinearitas tipe LM ini dilakukan melalui
studi simulasi yang difokuskan pada perbandingan kuasa (power) antara uji
Terasvirta yang dibahas pada bagian sebelumnya dengan uji White. Uji White
adalah uji nonlinearitas tipe LM dengan sampling acak yang diperkenalkan oleh
White (1989c) dan Lee dkk. (1993). Isu lain yang akan dikaji dalam studi simulasi
ini adalah efek dari outlier pada model linear terhadap kuasa dari kedua uji
tersebut.
Bab IV. FFNN untuk Peramalan Runtun waktu

77
Eksperimen Monte Carlo secara umum berupa dua kelompok pem-
bangkitan data univariat, yaitu linear dan nonlinear. Model-model linear yang
dipilih dalam eksperimen ini adalah model Autoregresif orde 2 atau AR(2) dan
model Gerak Acak. Model AR(2) mewakili kelompok model linear ARIMA dan
dalam hal ini dipilih koefisien 1,2 dan -0,6 yang memenuhi syarat stasioneritas.
Sedangkan model Gerak Acak mewakili kelompok model linear yang tidak
memenuhi syarat stasioner.
Ada dua model nonlinear yang digunakan dalam studi simulasi ini yaitu
model Logistic Smooth Transition Autoregressive (LSTAR) dan Exponential
Smooth Transition Autoregressive (ESTAR). Model LSTAR yang digunakan
secara umum mempunyai bentuk yang sama dengan yang telah digunakan oleh
Terasvirta dkk. (1993). Sedangkan model ESTAR yang dipilih adalah model yang
mempunyai bentuk yang sama dengan yang digunakan oleh Connor dkk. (1994).
Perbedaan kedua model ini adalah terletak pada besarnya nilai-nilai parameter
yang digunakan.
Secara umum, penentuan besarnya parameter pada studi simulasi
mengikuti Lee dkk. (1993). Secara lengkap model linear dan nonlinear yang
digunakan dalam studi simulasi ini adalah :
a. Kelompok model linear
(i). Model AR(2) :
t t t t
u Y Y Y +
2 1
6 . 0 2 . 1 , dengan ) 5 . 0 , 0 ( IIDN ~
2
t
u .
(ii). Gerak Acak :
t t t
u Y Y +
1
, dengan ) 5 . 0 , 0 ( IIDN ~
2
t
u .
(iii). Model Autoregresif dengan outlier atau AR(2)-O

t T t t t
u I Y Y Y + +

5 6 . 0 2 . 1
2 1

dengan 1
T
I untuk 101 T dan nol untuk 101 T , ) 5 . 0 , 0 ( IIDN ~
2
t
u .
b. Kelompok model nonlinear
(i). Model LSTAR :
t t t t t t t
u Y F Y Y Y Y Y + + +

) ( ) 795 . 0 9 . 0 ( 6 . 0 2 . 1
1 2 1 0 2 1

Bab IV. FFNN untuk Peramalan Runtun waktu

78
dengan
1
1 1
)}] 02 . 0 ( exp{ 1 [ ) (


+
t t
Y Y F , 02 . 0
0
, 100 , dan
) 05 . 0 , 0 ( IIDN ~
2
t
u .
(ii). Model Exponential Smooth Transition Autoregressive (ESTAR-1), yaitu
t t t t t t t
u Y F Y Y Y Y Y + + +

) ( ) 795 . 0 9 . 0 ( 6 . 0 2 . 1
1 2 1 0 2 1

dengan } . 2000 exp{ 1 ) (
2
1 1

t t
Y Y F , dan ) 05 . 0 , 0 ( IIDN ~
2
t
u .
(iii). Model Exponential Smooth Transition Autoregressive (ESTAR-2), yaitu
t t t t
u Y Y Y +

) 25 . 0 exp( . 5 . 6
2
1 1
, dengan ) 5 . 0 , 0 ( IIDN ~
2
t
u .
Untuk masing-masing model, besar ukuran sampel yang digunakan adalah 200.
Studi simulasi ini dilakukan dengan menggunakan program R, dan secara
lengkap script program untuk kajian terapan ini dapat dilihat pada Subanar dkk.
(2005).
Ilustrasi grafik yang berupa plot runtun waktu data dan plot data dengan
lag-lagnya dari hasil simulasi untuk kelompok model linear dapat dilihat pada
Gambar 4.2 dan 4.3. Gambar 4.2 adalah untuk model AR(2), sedangkan Gambar
4.3 untuk model Gerak Acak. Dari Gambar 4.2a dapat dilihat bahwa data relatif
stasioner dan hal ini sesuai dengan yang dipostulatkan. Berdasarkan plot lag-
lagnya, yaitu Gambar 4.2b sampai dengan 2e, dapat dijelaskan bahwa lag-lag
yang relatif kuat berhubungan linear dengan kejadian pada waktu ke-t,
t
Y ,
adalah lag 1 dan 2, atau
1 t
Y dan
2 t
Y .
Hasil pada Gambar 4.3a menunjukkan bahwa pola data tidak stasioner
dan dari Gambar 4.3b sampai dengan 4.3e terlihat jelas bahwa ada hubungan
linear yang sangat kuat antara lag 1, 2, 3 dan 4, atau ,
1 t
Y ,
2 t
Y
3 t
Y dan
4 t
Y ,
dengan kejadian pada waktu ke-t atau
t
Y . Adanya hubungan yang sangat kuat
terutama antara
1 t
Y dengan
t
Y menunjukkan bahwa hasil simulasi telah sesuai
dengan postulat model yang sebenarnya, dimana hanya lag 1 yang ada dalam
model.

Bab IV. FFNN untuk Peramalan Runtun waktu

79


Gambar 4.2. Plot runtun waktu data (2a), dan plot data dengan lag-lagnya,
yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3,
dan 2e dengan lag 4, dari data simulasi AR(2).





Gambar 4.3. Plot runtun waktu data (3a), dan plot data dengan lag-lagnya,
yaitu 3b dengan lag 1, 3c dengan lag 2, 3d dengan lag 3,
dan 3e dengan lag 4, dari data simulasi Gerak Acak.
Bab IV. FFNN untuk Peramalan Runtun waktu

80
Gambar 4.4 dan 4.5 adalah hasil ilustrasi grafik berupa plot runtun waktu
dan plot data dengan lag-lagnya dari simulasi untuk kelompok model nonlinear,
yaitu model LSTAR di Gambar 4.4 dan model ESTAR-2 pada Gambar 4.5. Dari
Gambar 4.4a dapat dilihat bahwa pola data fluktuatif di sekitar angka nol. Secara
visual pola data terlihat stasioner dan sulit membedakan dengan model linear
pada Gambar 4.2a sebelumnya. Begitu juga dengan visualisasi data dengan lag-
lagnya yang mengindikasikan bahwa bentuk hubungan linear dengan lag-lag
data masih relatif ada. Hal ini terutama dapat dilihat pada plot dengan lag 1 di
Gambar 4.4b. Kondisi ini sesuai dengan yang dipostulatkan dalam model bahwa
model LSTAR juga mengandung unsur model linear didalamnya. Gambar 4.4d
dan 4.4e juga menunjukkan bahwa lag 3 dan lag 4 relatif tidak berhubungan
dengan
t
Y . Indikasi ini digambarkan dengan bentuk titik-titik pada plot lag-lag
tersebut yang relatif menyerupai suatu lingkaran.



Gambar 4.4. Plot runtun waktu data (4a), dan plot data dengan lag-lagnya,
yaitu 4b dengan lag 1, 4c dengan lag 2, 4d dengan lag 3,
dan 4e dengan lag 4, dari data simulasi LSTAR.

Bab IV. FFNN untuk Peramalan Runtun waktu

81


Gambar 4.5. Plot runtun waktu data (5a), dan plot data dengan lag-lagnya,
yaitu 5b dengan lag 1, 5c dengan lag 2, 5d dengan lag 3,
dan 5e dengan lag 4, dari data simulasi ESTAR-2.

Berbeda dengan model LSTAR sebelumnya, Gambar 4.5a mengin-
dikasikan bahwa data cenderung tidak stasioner dan berfluktuasi dengan pola
yang teratur disekitar angka nol. Hasil pada Gambar 4.5b sampai dengan 4.5e
menunjukkan dengan jelas bahwa bentuk hubungan dengan lag-lag data adalah
nonlinear. Hal ini terutama dapat dilihat pada plot data dengan lag 1 di Gambar
4.5b. Kondisi ini sesuai dengan postulat model sebenarnya yaitu lebih didominasi
unsur nonlinearnya.

4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier (LM)
dengan Ekspansi Taylor
Studi simulasi ini dilakukan pada masing-masing model di atas dengan
pengulangan sebanyak 1000 kali dan ukuran sampel sebesar 200. Banyak
pengulangan ini sama seperti yang telah dilakukan oleh Terasvirta dkk. (1993),
sedangkan besarnya ukuran sampel tersebut mewakili besar data yang besar
Bab IV. FFNN untuk Peramalan Runtun waktu

82
untuk suatu runtun waktu. Secara ringkas hasil-hasil perhitungan dari power
pada uji Terasvirta dan uji White pada keempat model simulasi di atas dapat
dilihat pada Tabel 4.1 dan secara grafik ditampilkan pada Gambar 4.6.
Nilai power ini adalah persentase terjadi kesimpulan tolak
0
H dalam
1000 kali pengujian pada masing-masing model, di bawah kondisi
0
H adalah
tidak benar. Dari Tabel 4.1 dan Gambar 4.6a dan 4.6b dapat dilihat dengan jelas
bahwa power pada kedua uji ini untuk model yang sesungguhnya linear dan
stasioner adalah sangat kecil. Dari hasil pada model AR(2) dapat dilihat dengan
jelas bahwa nilai power pada kedua uji tersebut mendekati nilai level signifikansi,
yaitu antara 0,01 dan 0,05.
Power ini akan semakin besar pada saat model yang ada adalah model
yang tidak stasioner, yang dalam penelitian ini diwakili oleh model Gerak Acak
pada Gambar 4.6b. Perbandingan uji nonlinearitas dan uji ketidakstasioneran
data (unit root test) pada suatu data runtun waktu secara mendalam dapat dilihat
pada Blake dan Kapetanios (2003).

Tabel 4.1. Hasil perbandingan power uji Terasvirta dan uji White pada keenam
model simulasi (1000 kali pengulangan)



Hasil terpenting yang diperoleh dari studi simulasi pada model-model
linear ini adalah adanya fakta yang signifikan yang menunjukkan bahwa kedua uji
NN untuk linearitas ini sangat sensitif terhadap adanya outlier pada suatu data.
Hal ini ditunjukkan oleh hasil pada model AR(2)-O yang memberikan nilai power
sekitar 96% untuk uji White dan 99,9% untuk uji Terasvirta pada level signifikansi
0.05.
Bab IV. FFNN untuk Peramalan Runtun waktu

83
Berdasarkan hasil-hasil pada Tabel 4.1, dapat dilihat bahwa hasil
perbandingan power kedua uji pada model-model yang nonlinear menunjukkan
bahwa uji Terasvirta cenderung mempunyai power yang lebih tinggi dibanding uji
White. Hal ini terlihat jelas pada nilai power untuk model nonlinear LSTAR dan
ESTAR-1, baik pada level signifikansi 0,05 ataupun 0,01. Hasil dari penelitian ini
juga menunjukkan bahwa untuk data runtun waktu yang indikasi nonlinearnya
sangat kuat, dalam hal ini seperti pada model ESTAR-2, maka kedua uji ini
memberikan hasil yang sama baiknya.

4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun waktu
Bagian ini akan menjelaskan hasil-hasil kajian berkaitan dengan statistik
uji baru yang selanjutnya dapat digunakan dalam prosedur pembentukan model
FFNN untuk suatu permasalahan runtun waktu, baik prosedur top-down
ataupun bottom-up. Statistik uji yang dikembangkan adalah statistik uji untuk
evaluasi secara inferensia besaran penambahan R
2
pada suatu network yang
dikenal dengan R
2
incremental
. Penggunaan besaran ini secara deskriptif pertama
kali diperkenalkan oleh Kaashoek dan Van Dijk (2002). Kaashoek dan Van Dijk
(2002) mengombinasikan pemakaian R
2
incremental
dengan koefisien loading pada
Principal Component Analysis untuk residual untuk evaluasi secara deskriptif
kontribusi suatu unit input dan unit neuron di lapis tersembunyi. Hasill-hasil dari
kajian ini juga telah dipublikasikan dalam Suhartono dkk. (2006a, 2006b), serta
pada Suhartono dan Subanar (2006).

4.2.1. Kontribusi Penambahan melalui R
2

Kaashoek dan Van Dijk (2002) menyatakan bahwa suatu kandidat yang
natural untuk mengkuantifikasi performansi suatu network adalah kuadrat dari
koefisien korelasi antara Y dan Y

,
)

)( (
)

(
2
2
Y Y Y Y
Y Y
R

(4.2.1)
Bab IV. FFNN untuk Peramalan Runtun waktu

84
dengan Y

adalah vektor dari titik-titik output network. Performansi network


dengan penghapusan hanya satu unit neuron di lapis tersembunyi dapat diukur
dengan cara yang sama. Sebagai contoh, jika kontribusi dari unit neuron h
adalah nol ) 0 (
h
, maka network akan menghasilkan suatu output
h
Y


dengan kesalahan atau error,
h h
Y Y e

. (4.2.2)
Performansi network yang telah tereduksi ini dapat diukur dengan kuadrat
dari koefisien korelasi
2
h
R

antara Y dan Y

, yaitu
)

)( (
)

(
2
2
h h
h
h
Y Y Y Y
Y Y
R

. (4.2.3)
Selanjutnya, kontribusi penambahan dari unit neuron h yang dinotasikan dengan
2
) (h
R adalah
2 2 2
) ( h h
R R R

. (4.2.4)
Prosedur yang sama dapat diaplikasikan untuk mereduksi jumlah unit
pada lapis input. Dalam hal ini, )} (

{ t Y
i
adalah output network dari suatu
arsitektur network dengan taksiran parameter-parameter tanpa melibatkan unit
input i . Jika kontribusi dari unit input i dikondisikan sama dengan nol , 0 (
ih

dengan ; , , 2 , 1 p i K ) , , 2 , 1 q h K , maka performansi network yang tereduksi ini
dapat dikuantifikasi dengan kuadrat dari koefisien korelasi antara Y dan
i
Y

,
yang dinotasikan
2
i
R

, yaitu
)

)( (
)

(
2
2
i i
i
i
Y Y Y Y
Y Y
R

. (4.2.5)
Kontribusi penambahan unit input i yang dinotasikan dengan
2
) (i
R diukur dengan
2 2 2
) ( i i
R R R

. (4.2.6)
Nilai relatif dari kontribusi penambahan, baik
2
) (i
R dan
2
) (h
R , secara deskriptif
oleh Kaashoek dan Van Dijk digunakan untuk mengevaluasi apakah suatu input
atau unit neuron di lapis tersembunyi dapat dihilangkan dari network atau tidak.

Bab IV. FFNN untuk Peramalan Runtun waktu

85
4.2.2. Inferensia Statistik dari Kontribusi Penambahan R
2

Berbeda dengan pendekatan deskriptif yang menekankan aspek
eksplorasi data seperti pada Kaashoek dan Van Dijk (2002), pada bagian ini
akan diperkenalkan suatu prosedur baru yang berdasarkan pada inferensia
statistik dari kontribusi penambahan. Statistik uji ini dikonstruksi seperti pada
model linear yang dikenal dengan uji signifikansi bertahap. Uji ini melalui tiga
tahap utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full
Model), dan penentuan Uji Statistik.
Untuk mengonstruksi statistik uji ini, diperlukan modifikasi atau kondisi
tambahan selain Asumsi 3.2.13.2.3, 3.3.1 dan 3.3.2 pada bab sebelumnya.
Beberapa teorema dan asumsi yang dibutuhkan adalah sebagai berikut.
Teorema 4.2.1. Berdasarkan Teorema 3.3.1 diketahui bahwa
) , (
2 / 1
C w w n
d
n
.
Jika f adalah suatu fungsi yang dapat diturunkan pada

w dan D DC
*

mempunyai elemen-elemen diagonal yang semuanya tidak nol, maka
) ), , ( ( ) , (
2 / 1
D DC w w

n X f X f
t
d
n t
,
dengan D adalah suatu matriks ) / (
j i
w f seperti yang dinyatakan pada
Proposisi 2.3.24.
Bukti: Dengan menggunakan Proposisi 2.3.24 maka bukti dari teorema ini dapat
diperoleh secara langsung.
Asumsi 4.2.1. } , {
t t
X Y adalah suatu barisan variabel random yang independen
sedemikian hingga < ) (
2
t
Y E , dan untuk suatu

w dalam
l
, dengan
p r p q l ) ( + seperti pada Asumsi 3.2.2 sedemikian hingga
) ), , ( ( ~ |
2
0

w
t t t
X f X Y , < <
2
0
0 , K , 2 , 1 t .

Bab IV. FFNN untuk Peramalan Runtun waktu

86
Berdasarkan asumsi-asumsi tersebut, maka dapat dikonstruksi suatu teorema
berikut ini.
Teorema 4.2.2. (White, 1989a) Jika diberikan Asumsi 3.2.13.2.3, 3.3.1, 3.3.2
dan 4.2.1, maka untuk sembarang l n > diperoleh
2
0

SSE
2
~
l n
,
dengan


n
t
n t t
X f Y SSE
1
2
)] , ( [ w , dan l adalah jumlah parameter yang di-
estimasi pada model ) , (
n t
X f w .
Hasil ini selanjutnya dapat digeneralisasi untuk suatu model NN tertentu,
yaitu
t n t t
X f Y + ) , ( w , dengan l parameter yang akan diestimasi, bahwa

2
2
0
2
0
1
2
~
l n
SSE
n
t
t

.
Dengan demikian, dapat dikonstruksi uji statistik melalui beberapa tahapan
seperti Teorema berikut ini.
Teorema 4.2.3. Diberikan suatu Model Tereduksi (Reduced Model) yang secara
umum dapat ditulis dalam bentuk
) ( ) (
) , (
R
t
R
n t t
X f Y + w , (4.2.7)
dengan
R
l adalah jumlah parameter yang diestimasi, dan diberikan Model
Lengkap (Full Model) yang lebih kompleks dibanding Model Tereduksi, misalkan
adalah
) ( ) (
) , (
F
t
F
n t t
X f Y + w , (4.2.8)
dengan
F
l adalah jumlah parameter yang diestimasi, dan
R F
l l > , maka di
bawah 0 w
+
:
0
H (nilai-nilai parameter (bobot) tambahan dalam model
lengkap adalah sama dengan nol), statistik
F
]) [ ], [ (
) (
) ( ) (
2 1
~
) /(
) /( ) (
F R F
l n v l l v
F F
R F F R
F
l n SSE
l l SSE SSE


. (4.2.9)
Bab IV. FFNN untuk Peramalan Runtun waktu

87
Statistik uji F ini dapat pula ditulis dalam bentuk
) ( ) (
) ( ) ( ) ( ) (
/
) /( ) (
F F
F R F R
df SSE
df df SSE SSE
F

, (4.2.10)
dengan
) ( R
df
R
l n adalah derajat bebas Reduced Model, dan
) (F
df
F
l n
adalah derajat bebas Full Model.

Bukti: Dari Model Tereduksi dan Model Lengkap diketahui bahwa
R F
l l > , dan
) ( R
SSE adalah independen dengan
) ( F
SSE . Hal ini berimplikasi bahwa
2
R
l n

dari model Tereduksi dan
2
F
l n
dari model Lengkap adalah independen, dengan
menggunakan implikasi Teorema Gamma Inverse Additivity (Mittelhammer 1996,
Teorema 4.4, halaman 190) diperoleh
2
0
) (
2
0
) (

F R
SSE SSE

2
~
R F
l l
.
Dengan membagi nilai tersebut dengan
2
F
l n
dari Model Lengkap, diperoleh

2
0 ) (
2
0 ) ( ) (
/
/ ) (

F
F R
SSE
SSE SSE
) (
) ( ) (
) (
F
F R
SSE
SSE SSE


2
2
~
F
R F
l n
l l

.
Akhirnya, dengan membagi pembilang dengan selisih derajat bebas error dari
model Tereduksi dan model Lengkap, serta membagi penyebut dengan derajat
bebas error model Lengkap, dapat dibuktikan bahwa
) ( ) (
) ( ) ( ) ( ) (
/
) /( ) (
F F
F R F R
df SSE
df df SSE SSE
) /(
) /( ) (
) (
) ( ) (
F F
R F F R
l n SSE
l l SSE SSE




) (
) (
2
2
F l n
R F l l
l n
l l
F
R F



]) [ ]; [ (
2 1
~
F R F
l n v l l v
F

.

Bab IV. FFNN untuk Peramalan Runtun waktu

88
Selain itu, akibat dari Teorema 4.2.3 maka statistik uji F pada
persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau
R
2
incremental
seperti pada Corollary berikut ini.
Corollary 4.2.1. Implikasi dari Teorema 4.2.3 maka statistik uji F pada
persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau
R
2
incremental
, yaitu

) (
2
) (
) ( ) (
2
) (
2
) (
) 1 (
) ( ) (
F F
F R R F
df R
df df R R
F


, (4.2.11a)
atau

) (
2
) (
) ( ) (
2
l incrementa
) 1 (
) (
F F
F R
df R
df df R
F

, (4.2.11b)
dengan
2
) (
2
) (
2
l incrementa R F
R R R .

Bukti: Perhatikan kembali statistik uji pada Persamaan (4.2.10), yaitu
) ( ) (
) ( ) ( ) ( ) (
) ( ) (
F F
F R F R
df SSE
df df SSE SSE
F

.
Dalam pemodelan statistik, diketahui bahwa jumlah kuadrat total atau SST dapat
didekomposisikan menjadi jumlah kuadrat yang dijelaskan model (selanjutnya
dinotasikan SSR ) dan jumlah kuadrat residualnya ) (SSE . Hal ini juga berlaku
pada pemodelan FFNN. Secara matematis, untuk model tereduksi (FFNN
dengan arsitektur sederhana) dan model lengkap (FFNN dengan arsitektur lebih
kompleks), hubungan tersebut dapat ditulis dengan
) ( ) ( R R
SSE SSR SST + ,
dan
) ( ) ( F F
SSE SSR SST + .
Bab IV. FFNN untuk Peramalan Runtun waktu

89
Karena nilai SST dari kedua model ini adalah sama, maka persamaan
(4.2.10) selanjutnya dapat ditulis dalam bentuk
) ( ) (
) ( ) ( ) ( ) (
] [
)] ( ) ( [
F F
F R F R
df SSR SST
df df SSR SST SSR SST
F


,

) ( ) (
) ( ) ( ) ( ) (
] [
)] [
F F
F R R F
df SSR SST
df df SSR SSR


.
Melalui pembagian pembilang dan penyebut dengan SST , maka akan diperoleh
) (
) (
) ( ) (
) ( ) (
F
F
F R
R F
df
SST
SSR SST
df df
SST
SSR SSR
F

,
_

,
_


,

) (
2
) (
) ( ) (
2
) (
2
) (
) 1 (
) ( ) (
F F
F R R F
df R
df df R R


,

) (
2
) (
) ( ) (
2
l incrementa
) 1 (
) (
F F
F R
df R
df df R

.

Penggunaan statistik uji untuk evaluasi kontribusi penambahan ini
dilakukan secara iteratif mulai tiga tahapan utama, yaitu (1) penaksiran model
Tereduksi, (2) penaksiran model Lengkap, dan (3) perhitungan uji statistik F ,
sampai diperoleh jumlah unit neuron di lapis tersembunyi yang optimal.
Selanjutnya, prosedur yang sama dapat dilakukan untuk mendapatkan jumlah
unit input yang optimal. Dalam hal ini, prosedur dimulai dengan menggunakan
unit input yang mempunyai nilai R
2
yang terbesar.


Bab IV. FFNN untuk Peramalan Runtun waktu

90
4.2.3. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-
linearitas, Inferensia Statistik R
2
incremental
dan Uji Wald
Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi
pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji
nonlinearitas, inferensia statistik kontribusi penambahan R
2
incremental
, dan uji Wald.
Gambar 4.6 dan 4.7 adalah bagan yang menunjukkan dua prosedur (algoritma)
baru yang diperkenalkan untuk prosedur pembentukan model FFNN.
Prosedur pertama pada Gambar 4.6 adalah prosedur yang fokus pada
penggunaan inferensia statistik kontribusi penambahan dalam skema forward,
yang dimulai dengan penentuan jumlah unit di lapis tersembunyi yang optimal
dan dilanjutkan dengan pemilihan unit input yang optimal. Sedangkan prosedur
kedua pada Gambar 4.7 merupakan prosedur yang menggunakan kombinasi
inferensia statistik kontribusi penambahan dalam skema forward untuk
penentuan jumlah unit di lapis tersembunyi yang optimal dengan uji Wald dalam
skema backward untuk pemilihan unit input yang optimal.
Pada tahap awal di kedua prosedur tersebut dilakukan uji nonlinearitas
pada runtun waktu untuk mendeteksi adanya bentuk hubungan nonlinear pada
data. Jika tidak terbukti ada hubungan nonlinear, maka pemodelan berhenti dan
berakhir pada model runtun waktu yang linear, yaitu ARIMA. Sebaliknya, jika
terbukti ada bentuk hubungan nonlinear pada data maka strategi pembentukan
model FFNN secara iteratif dapat dilakukan dengan mengimplementasikan
inferensia R
2
incremental
melalui statistik uji F.
Tahap pertama pembentukan model FFNN adalah menentukan jumlah
unit neuron pada lapis tersembunyi yang optimal. Dalam hal ini, strategi
pemodelan dilakukan dengan melibatkan variabel lag input yang relatif banyak,
misal lag 1 sampai 6 untuk kasus yang nonmusiman. Proses penentuan jumlah
unit neuron pada lapis tersembunyi yang optimal dilakukan dengan langkah maju
(forward) atau Bottom Up dalam terminologi NN. Pada tahap ini, proses
penentuan didasarkan pada signifikansi statistik uji F untuk inferensia R
2
incremental

dengan bertambahnya unit neuron. Setelah diperoleh jumlah unit neuron pada
Bab IV. FFNN untuk Peramalan Runtun waktu

91
lapis tersembunyi yang optimal, maka tahap selanjutnya adalah penentuan
variabel lag input yang optimal.
Pada tahap penentuan variabel lag input yang optimal, proses penentuan
pada prosedur pertama dilakukan dengan langkah maju yang dimulai dengan
satu variabel lag input yang mempunyai nilai R
2
paling besar. Kemudian, evaluasi
signifikansi kontribusi penambahan variabel lag input melalui inferensia
R
2
incremental
dengan statistik uji F dilakukan secara iteratif sampai diperoleh
variabel input yang optimal. Proses berakhir dengan diperolehnya model FFNN
dengan variabel lag input dan jumlah unit neuron di lapis tersembunyi yang
optimal untuk peramalan runtun waktu. Sedangkan pada prosedur kedua,
evaluasi signifikansi parameter dari variabel lag input ke lapis tersembunyi
dilakukan melalui uji Wald. Eliminasi variabel lag input dilakukan pada parameter
dari variabel lag input yang tidak signifikan. Proses berakhir dengan diperolehnya
model FFNN terbaik untuk peramalan runtun waktu.
Implementasi dari prosedur pembentukan yang diperkenalkan ini dapat
dikombinasikan dengan memasukan kriteria pemilihan model terbaik, misalnya
Schwarz Information Criteria (SBC) pada tahap evaluasi jumlah unit neuron di
lapis tersembunyi dan penentuan variabel lag input yang optimal. Sebagai
tambahan, prosedur pembentukan model FFNN dengan hanya menggunakan
kriteria pemilihan model terbaik dapat dilihat pada Anders dan Korn (1999).

















Bab IV. FFNN untuk Peramalan Runtun waktu

92
Mulai



Aplikasikan uji nonlinearitas
untuk deteksi bentuk hubungan
nonlinear pada runtun waktu



Apakah uji nonlinearitas
menunjukkan adanya bentuk
hubungan nonlinear ?





Spesifikasikan model FFNN
dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi
sebagai tahap awal penentuan jumlah
unit neuron yang optimal



Apakah penambahan 1 unit
neuron di lapis tersembunyi memberikan
R
2
incremental
yang signifikan ?





Spesifikasikan model FFNN dengan
jumlah unit neuron TETAP dari hasil
sebelumnya, dimulai dengan 1
variabel lag input yang mempunyai
nilai R
2
terbesar.



Apakah penambahan
1 variabel lag input memberikan
R
2
incremental
yang signifikan ?





Selesai


Gambar 4.6. Prosedur pembentukan model melalui inferensia R
2
incremental

YA
TIDAK
TIDAK
Aplikasikan
model ARIMA
TIDAK
Masukkan 1
tambahan unit
neuron
YA
Masukkan 1
tambahan lag
yg signifikan
YA
Bab IV. FFNN untuk Peramalan Runtun waktu

93
Mulai



Aplikasikan uji nonlinearitas
untuk deteksi bentuk hubungan
nonlinear pada runtun waktu



Apakah uji nonlinearitas
menunjukkan adanya bentuk
hubungan nonlinear ?





Spesifikasikan model FFNN
dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi
sebagai tahap awal penentuan jumlah
unit neuron yang optimal



Apakah penambahan 1 unit
neuron di lapis tersembunyi memberikan
R
2
incremental
yang signifikan ?





Spesifikasikan model FFNN dengan
jumlah unit neuron TETAP dari hasil
sebelumnya, gunakan jumlah yang
relatif cukup banyak untuk variabel
lag input yang ada pada model.



Melalui uji Wald,
Apakah terdapat variabel lag input
yang tidak signifikan?





Selesai
Gambar 4.7. Prosedur kombinasi inferensia R
2
incremental
dan uji Wald
YA
TIDAK
TIDAK
Aplikasikan
model ARIMA
TIDAK
Masukkan 1
tambahan unit
neuron
YA
Eliminasi lag
variabel yg
tdk signifikan.
YA

- 94 -
BAB V
HASIL EMPIRIS

Ada empat macam kajian empiris utama yang telah dilakukan dalam
penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F
untuk inferensia R
2
incremental
dan uji Wald secara empiris dapat bekerja dengan
baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu
univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk
runtun waktu univariat yang nonlinear.
Kajian empiris kedua difokuskan pada perbandingan ketepatan ramalan
antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus real
utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia dan
data jumlah penumpang pesawat udara internasional yang dikenal dengan Airline
Data. Data kedua ini merupakan salah satu data sentral yang menjadi kasus
utama pada kompetisi NN untuk peramalan pada Juni 2005 (lihat www.neural-
forecasting.com).
Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode
baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang
mengandung tren dan musiman. Kajian ini memberikan peluang untuk
pembentukan model hybrid yang merupakan kombinasi dari model-model runtun
waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian
kedua, yaitu Airline Data.
Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk
peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial
runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-
time, yaitu model Generalized Space Time Autoregressive (GSTAR), khususnya
evaluasi terhadap kondisi stasioneritas model GSTAR(1
1
) dan metode penentuan
bobot spasial. Selain itu, diberikan pula hasil-hasil perbandingan ketepatan
ramalan antara FFNN dengan model-model runtun waktu multivariat. Sebagai
studi kasus, digunakan data produksi minyak pada tiga lokasi sumur pengeboran.
Bab V. Hasil Empiris

95
5.1 Pembentukan FFNN melalui Inferensia R
2
incremental
dan Uji Wald
Ada dua prosedur pembentukan model FFNN yang digunakan dalam
bagian ini, yaitu langkah maju (forward) dan langkah mundur (backward). Dua
prosedur ini diimplementasikan pada suatu data simulasi. Penerapan uji statistik
untuk inferensia R
2
incremental
dilakukan pada prosedur forward sesuai dengan
algoritma yang diperkenalkan pada bagian 4.3.
Eksperimen simulasi ini dilakukan dengan tujuan utama untuk menunjuk-
kan bagaimana prosedur pembentukan model NN yang diperkenalkan dapat
bekerja dengan baik. Data simulasi yang dibangkitkan adalah data yang
mengikuti model Exponential Smoothing Transition Autoregressive (ESTAR),
yaitu

t t t t
u Y Y Y +

) 25 . 0 exp( . 5 . 6
2
1 1
, (5.1.1)
dengan ) 5 . 0 , 0 ( IIDN ~
2
t
u .
Plot runtun waktu dan plot variabel lag dari data ini dapat dilihat pada
Gambar 5.1. Dari gambar ini dapat diamati bahwa data mengikuti suatu pola
yang stasioner, dan ada hubungan nonlinear yang kuat antara data
t
Y dengan
data lag 1 atau
1 t
Y . Bentuk ini dikenal dengan autoregresi nonlinear pada lag 1.

5.1.1. Hasil Prosedur Backward versi Kaashoek dan Van Dijk
Prosedur backward yang dilakukan pada bagian ini adalah prosedur yang
diperkenalkan oleh Kaashoek dan Van Dijk (2002). Aplikasi dari prosedur ini
dimulai dengan FFNN yang melibatkan enam variabel lag input
) , , , (
6 2 1 t t t
Y Y Y K , satu input konstan dan enam unit neuron di lapis
tersembunyi. Secara umum, ada dua tahapan pada prosedur backward, yaitu
penentuan banyaknya unit neuron yang optimal di lapis tersembunyi dan
penentuan variabel lag input yang optimal. Proses penentuan banyaknya unit
neuron dan variabel lag input dilakukan secara simultan. Hasil-hasil optimisasi
untuk penentuan banyaknya unit neuron di lapis tersembunyi dapat dilihat pada
Tabel 5.1 dan 5.2.
Bab V. Hasil Empiris

96






Gambar 5.1. Plot runtun waktu dan plot variabel lag (y
t-1
, y
t-2
) dari data simulasi


Tabel 5.1. Hasil-hasil penentuan banyaknya unit yang optimal di lapis tersem-
bunyi dengan prosedur backward versi Kaashoek dan Van Dijk

Tahap
Banyaknya unit
di lapis tersembunyi
SBC R
2
R
2
incr
PCA

1 6 unit (6 input) -62,1157 0,98668 *
tanpa h1 0,79924 0,18744 0,127
tanpa h2 0,07076 0,91592 0,843
tanpa h3 0,95844 0,02824 -0,043
tanpa h4 0,44489 0,54179 -0,371
tanpa h5 0,66586 0,32082 -0,365
tanpa h6 0,98010 0,00658 0,017

2 4 unit (1 input) -122,833 0,97545 *
tanpa h1 0,95258 0,02288 -0,014
tanpa h2 0,22184 0,75361 0,737
tanpa h3 0,40196 0,57350 -0,675
tanpa h4 0,88360 0,09185 0,041

3 2 unit (1 input) -137,764 0,97246 *
tanpa h1 0,36845 0,60588 0,762
tanpa h2 0,24701 0,72732 -0,610

Bab V. Hasil Empiris

97
Pada tahap pertama, dengan membandingkan kontribusi penambahan
dan nilai-nilai vektor eigen dari
H H
E E

, maka unit neuron ke 3 dan 6 dapat
dikeluarkan dari model. Selanjutnya, secara simultan dari hasil pada Tabel 5.2
dapat dijelaskan bahwa unit input variabel lag 2 sampai dengan 6 atau
) , , , (
6 2 1 t t t
Y Y Y K dapat dikeluarkan dari model. Tahap ini memberikan hasil
sementara yaitu model FFNN dengan satu input variabel lag, yaitu lag 1, dan
empat unit neuron di lapis tersembunyi, yang dapat dinotasikan dengan
FFNN(1,4,1). Secara grafik, output dari network dengan mengeluarkan satu input
variabel lag dapat dilihat pada Gambar 5.2.

Tabel 5.2. Hasil-hasil penentuan unit input yang optimal dengan
prosedur backward versi Kaashoek dan Van Dijk

Tahap Lag unit input SBC R
2
R
2
i ncr PCA

1 6 (lag 1-6) -62,1157 0,98668 *
tanpa lag 1 0,00476 0,98192 0,997
tanpa lag 2 0,96040 0,02628 0,042
tanpa lag 3 0,97614 0,01053 0,032
tanpa lag 4 0,97417 0,01251 -0,014
tanpa lag 5 0,96432 0,02235 -0,029
tanpa lag 6 0,97417 0,01251 -0,045


Hasil dari jalannya optimisasi lanjutan, yaitu tahap 2 dan 3, dapat dilihat
pada Tabel 5.1. Tahap 2 optimisasi menunjukkan bahwa unit neuron ke 1 dan 4
di lapis tersembunyi dapat dikeluarkan dari model. Dengan demikian, arsitektur
optimal dari FFNN untuk data simulasi ini dengan prosedur backward adalah
FFNN dengan satu unit input,
1 t
Y , dan dua unit neuron di lapis tersembunyi atau
FFNN(1,2,1).






Bab V. Hasil Empiris

98








Gambar 5.2. Output FFNN(6,6,1) tanpa satu unit variabel lag ) , , , (
6 2 1 t t t
Y Y Y K
dibandingkan dengan data aktual

5.1.2. Hasil Prosedur Forward melalui Uji R
2
incremental
untuk Penentuan
Banyaknya Unit di Lapis Tersembunyi dan Unit Input yang Optimal
Berdasarkan algoritma prosedur forward yang dikonstruksi dan diper-
kenalkan pada bagian 4.3, penentuan arsitektur FFNN optimal dimulai pada
suatu FFNN dengan enam variabel input ) , , , (
6 2 1 t t t
Y Y Y K dan satu input
konstan untuk mendapatkan banyaknya unit neuron optimal di lapis tersembunyi.
Hasil dari tahap-tahap optimisasi dapat dilihat pada Tabel 5.3.


Bab V. Hasil Empiris

99
Table 5.3. Hasil-hasil penentuan banyaknya unit neuron yang optimal di lapis
tersembunyi dengan prosedur forward melalui uji R
2
incremental

Banyaknya unit
neuron di lapis
tersembunyi
SBC R
2
R
2
incremental Uji F p-value

0
1
2
3
4
5
6


234,4843
182,0737
-72,8918
-61,4821
-45,5007
-33,6011
2,70047

0,161569
0,547258
0,975535
0,981029
0,984601
0,987999
0,988065

-
0,385689
0,428277
0,005494
0,003572
0,003398
0,000066

-
28,5667
7,7719
0,0518
0,0300
0,0251
0,0004

-
0,00000
0,00000
0,99993
0,99999
1,00000
1,00000

Tabel 5.3 menunjukkan bahwa banyaknya unit neuron di lapis
tersembunyi sebesar 2 adalah hasil yang optimal dan jalannya optimisasi
selanjutnya tidak diperlukan lagi. Grafik dari output network dengan
menambahkan satu unit neuron di lapis tersembunyi dapat dilihat pada Gambar
5.3. Dengan demikian, proses optimisasi dilanjutkan untuk menentukan variabel
input yang optimal.






Gambar 5.3. Output network dengan menambahkan satu unit neuron di lapis
tersembunyi dibandingkan dengan data aktual

Bab V. Hasil Empiris

100
Hasil-hasil optimisasi untuk penentuan input yang optimal dapat dilihat
pada Tabel 5.4. Dari tabel ini dapat dijelaskan bahwa unit input 1, yaitu
1 t
Y ,
adalah unit lag input yang optimal dari network. Dengan demikian, prosedur
forward menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu
input variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).

Tabel 5.4. Hasil-hasil penentuan unit input yang optimal dengan
prosedur forward melalui uji R
2
incremental


Lag input SBC R
2
R
2
incremental Uji F p-value

1
2
3
4
5
6

-137,764
235,233
272,478
284,580
285,902
278,594

0,97246
0,38365
0,15933
0,07013
0,05983
0,11538

-
-
-
-
-
-


-
-
-
-
-
-


-
-
-
-
-
-


1 dan 2
1 dan 3
1 dan 4
1 dan 5
1 dan 6


-130,900
-129,091
-129,109
-128,554
-130,326

0,97308
0,97267
0,97267
0,97255
0,97295

0,00062
0,00021
0,00021
0,00008
0,00049


1,23955
0,41540
0,42346
0,16830
0,97934

0,29349
0,66110
0,65583
0,84532
0,37878


Secara umum, hasil-hasil kajian simulasi pada prosedur backward dan
forward menunjukkan bahwa arsitektur FFNN optimal yang dihasilkan oleh kedua
prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga menunjukkan bahwa
prosedur forward dengan implementasi inferensia R
2
incremental
terbukti dapat
bekerja dengan baik untuk penentuan model FFNN terbaik. Perbandingan
banyaknya running untuk mendapatkan arsitektur FFNN terbaik menunjukkan
bahwa prosedur forward ini memberikan jumlah running yang lebih kecil daripada
prosedur yang diperkenalkan Kaashoek dan Van Dijk. Sebagai tambahan, hasil-
hasil dari kajian ini telah dipublikasikan dan secara lengkap dapat dilihat pada
Suhartono dkk. (2006a, 2006b), serta Subanar dan Suhartono (2006b).

Bab V. Hasil Empiris

101
5.1.3. Hasil Prosedur Backward dengan Uji Wald untuk Pemilihan Unit
Input yang Optimal
Pada bagian ini hanya akan diberikan hasil-hasil optimisasi pemilihan unit
input yang optimal, karena hasil penentuan banyaknya unit yang optimal di lapis
tersembunyi adalah sama dengan hasil bagian sebelumnya. Hasil optimisasi
untuk penentuan input ini dapat dilihat pada Tabel 5.5. Dari tabel ini dapat
dijelaskan bahwa unit input 1, yaitu
1 t
Y , adalah unit lag input yang optimal dari
network, karena memberikan nilai-nilai parameter yang secara statistik signifikan
berbeda dengan nol. Hal ini ditunjukkan oleh nilai p-value dari uji Wald yang lebih
kecil dari 0,05. Dengan demikian, prosedur backward melalui uji Wald
menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu input
variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).

Tabel 5.5. Hasil-hasil penentuan banyaknya unit di lapis tersembunyi
yang optimal dengan prosedur backward melalui uji Wald

Weights Coefficient S.E. Wald test

p-value

b ->h1
1->h1
2->h1
3->h1
4->h1
5->h1
6->h1
b->h2
1->h2
2->h2
3->h2
4->h2
5->h2
6->h2
b->o
h1->o
h2->o

-0,0122
0,9630
-0,0165
-0,0016
-0,0060
-0,0009
0,0020
-0,0005
1,3477
-0,0175
-0,0038
-0,0048
-0,0006
-0,0008
0,3878
-77,4291
76,5030

0,0352
0,0556
0,0108
0,0068
0,0068
0,0071
0,0069
0,0369
0,0746
0,0116
0,0081
0,0080
0,0080
0,0078
0,1474
23,8600
23,9097


0,1203
300,0898
2,3532
0,0555
0,7712
0,0162
0,0846
0,0002
326,0336
2,2753
0,2198
0,3584
0,0057
0,0104
6,9216
10,5307
10,2381

0,728733
0,000000
0,125021
0,813763
0,379829
0,898732
0,771153
0,989196
0,000000
0,131440
0,639206
0,549406
0,939963
0,918691
0,008515
0,001174
0,001376

Secara umum, hasil-hasil kajian simulasi pada prosedur backward melalui
uji Wald dan forward menunjukkan bahwa arsitektur FFNN optimal yang
dihasilkan oleh ketiga prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga
Bab V. Hasil Empiris

102
menunjukkan bahwa kedua prosedur baru yang diperkenalkan, yaitu
implementasi inferensia R
2
incremental
dan uji Wald terbukti dapat bekerja dengan
baik untuk penentuan model FFNN terbaik. Seperti pada bagian sebelumnya,
perbandingan banyaknya running untuk mendapatkan arsitektur FFNN terbaik
menunjukkan bahwa prosedur backward melalui uji Wald ini memberikan jumlah
running yang lebih kecil daripada prosedur yang diperkenalkan Kaashoek dan
Van Dijk. Sebagai tambahan, hasil-hasil kajian ini telah dipublikasikan dan secara
lengkap dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan
Suhartono (2006b).

5.2. Perbandingan Ketepatan Ramalan antara FFNN dan Model
Runtun Waktu Univariat Klasik
Kajian perbandingan ini dilakukan pada dua kasus real, yaitu data inflasi
Indonesia dan data jumlah penumpang pesawat internasional (Airline data).
Ramalan inflasi Indonesia pada bulan-bulan yang akan datang merupakan salah
satu topik kompetisi rutin yang diadakan oleh Bank Indonesia. Sedangkan, Airline
data adalah salah satu data yang paling banyak dipakai sebagai benchmark
untuk perbandingan antar beberapa model peramalan (Faraway dan Chatfield,
1998).

5.2.1. Hasil Perbandingan pada Kasus Inflasi Indonesia
Data inflasi Indonesia yang digunakan dalam kajian ini adalah inflasi
bulanan yang diamati mulai Januari 1999 sampai dengan April 2005, atau terdiri
dari 76 pengamatan. Pembentukan model dilakukan pada 72 data pertama
(dalam model NN dikenal sebagai data training), dan 4 data terakhir digunakan
sebagai evaluasi dan perbandingan ketepatan ramalan (data testing). Secara
grafik, data inflasi ini dapat dilihat pada Gambar 5.4. Dari gambar ini dapat
dijelaskan bahwa data mempunyai pola yang relatif stasioner dengan sedikit
variasi musiman.
Bab V. Hasil Empiris

103
Ada empat model peramalan yang digunakan dalam kajian perbandingan
ini, yaitu model ARIMA, Kombinasi Intervensi dan Variasi Kalender (ARIMAX),
FFNN dengan input seperti ARIMA, dan FFNN dengan input seperi ARIMAX.
Model ARIMAX digunakan terutama untuk mengevaluasi efek adanya hari raya
Idul Fitri dan kenaikan harga bahan bakar minyak (BBM) terhadap inflasi.
Penentuan model terbaik dilakukan dengan metode cross validation, yaitu model
yang memberikan kesalahan terkecil pada ramalan data testing. Secara lengkap,
tahapan pembentukan model untuk masing-masing model peramalan pada
kajian ini dapat dilihat pada Suhartono (2005).




Gambar 5.4. Plot runtun waktu inflasi Indonesia, Januari 1999 April 2005.

Evaluasi perbandingan ketepatan ramalan untuk menentukan model
terbaik difokuskan pada ramalan secara dinamis pada data testing.
Perbandingan dilakukan dengan menggunakan nilai Mean Squares of Error
(MSE), dan rasio kesalahan ramalan (yang diwakili oleh MSE) pada masing-
masing model terhadap kesalahan ramalan model FFNN dengan input
berdasarkan model ARIMAX dan hasilnya dapat dilihat pada Tabel 5.6.


Bab V. Hasil Empiris

104
Tabel 5.6. Ringkasan hasil perbandingan ramalan secara dinamis


Mode l Pe r a ma lan
MSE
(dat a t es t i n g)
Ras io MSE
(t er h ada p FFNN d en ga n
i n pu t s e per t i ARIMAX)
ARIMA(1, 0, 0)(1,0, 0)
11
0, 6826480 3,02
ARIMAX 0, 2407240 1,07
FFNN den gan in pu t seper t i ARIMA 0, 4711709 2,08
FFNN den gan in pu t seper t i ARIMAX 0, 2261001 1,00

Pada Tabel 5.6, angka lebih dari satu di kolom rasio MSE mengindikasi-
kan performansi ramalan yang ketepatannya lebih rendah dibandingkan hasil
ramalan model FFNN dengan input seperti ARIMAX. Berdasarkan hasil pada
tabel ini, dapat disimpulkan bahwa FFNN dengan input seperti ARIMAX adalah
model yang terbaik. Secara khusus, hasil uji linearitas dengan input seperti
ARIMAX menunjukkan tidak ada hubungan nonlinear pada data. Kondisi ini
berimplikasi pada hasil ketepatan ramalan model ARIMAX dan FFNN dengan
input seperti ARIMAX tidak berbeda nyata. Hasil dari kajian perbandingan ini
secara lengkap dapat dilihat di Suhartono (2005), dan Suhartono dkk. (2006c).

5.2.2. Hasil Perbandingan pada Airline Data
Data jumlah penumpang pesawat internasional (Airline data) terdiri dari
144 pengamatan bulanan, yaitu mulai Januari 1949 sampai Desember 1960.
Pada kajian ini, 120 pengamatan pertama digunakan sebagai data training dan
24 pengamatan terakhir sebagai data testing. Gambar 5.5 adalah plot runtun
waktu dari data Airline. Dari gambar ini dapat dilihat dengan jelas bahwa data
mengandung pola tren naik dan variasi musiman.
Pada kasus kedua ini, lima model peramalan digunakan dalam kajian
perbandingan ini, yaitu model Winters, Dekomposisi, Regresi Runtun waktu,
ARIMA, dan FFNN. Seperti pada kasus pertama, penentuan model terbaik
dilakukan dengan metode cross validation, yaitu model yang memberikan
kesalahan terkecil pada ramalan data testing.

Bab V. Hasil Empiris

105



Gambar 5.5. Plot runtun waktu data jumlah penumpang pesawat internasional

Hasil pembentukan model Winters dengan grid sebesar 0,1 untuk ketiga
parameter memberikan dua model terbaik, yaitu model 1 (Winters dengan
=0.9, =0.1 dan =0.3) dan model 2 (Winters dengan =0.1, =0.2 dan
=0.4). Selanjutnya, proses pembentukan model ARIMA dilakukan pada data
yang terlebih dulu ditransformasi ln untuk menstasionerkan variansi data. Melalui
prosedur Box-Jenkins diperoleh dua model dugaan yang sesuai, yaitu model 1
(ARIMA[0,1,1][0,1,1]
12
) dan model 2 (ARIMA[1,1,0][0,1,1]
12
).
Sedangkan proses pembentukan model FFNN dilakukan dengan 3
variabel lag input (yaitu
13 12 1
, ,
t t t
Y Y Y ) dan banyaknya unit neuron di lapis ter-
sembunyi mulai 1 sampai 3. Dalam hal ini model 1, 2, dan 3 secara berurutan
menunjukkan banyaknya unit neuron di lapis tersembunyi sebanyak 1, 2, dan 3.
Secara lengkap tahapan pembentukan model untuk kelima model peramalan
pada kajian ini secara lengkap dapat dilihat pada Suhartono dkk. (2005a).
Hasil evaluasi perbandingan ketepatan ramalan dari kelima model
peramalan dapat dilihat pada Tabel 5.7. Dari tabel ini dapat dijelaskan bahwa
model yang memberikan ramalan lebih baik di data training tidak selalu juga
memberikan hasil ramalan yang lebih baik di data testing. Hal ini dapat dilihat
pada hasil model Winters, ARIMA dan FFNN.
Testing data
Training data
Bab V. Hasil Empiris

106

Tabel 5.7. Hasil perbandingan antara kelima model peramalan pada data
training dan testing

DATA TRAINING DATA TESTING
MODEL
PERAMALAN
MSE MAE MAPE MSE MAE MAPE

Winters
(*)

a. Model 1
b. Model 2

Dekomposisi
(*)

Regresi Runtun
Waktu
(*)

ARIMA
a. Model 1
b. Model 2

FFNN
a. Model 1
b. Model 2
c. Model 3



97,734
146,858

215,457


198,156


88,644
88,862


93,147
85,846
70,172


7,302
9,406

11,470


10,213


7,387
7,333


7,631
7,370
6,610


3,183
4,056

5,059


4,138


2,954
2,926


3,174
3,100
2,798


12096,80
3447,82

1354,88


2196,87


1693,68
1527,03


1282,31
299713,20
11216,48


101,501
52,109

29,974


42,971


37,401
35,306


32,623
406,992
62,988


21,784
11,455

6,175


9,943


8,034
7,580


7,292
88,411
12,384


(*)
: error atau residual dari model tidak white noise

Berdasarkan hasil perbandingan pada Tabel 5.7 di atas, secara umum
dapat dilihat bahwa FFNN dengan 1 unit neuron di lapis tersembunyi mem-
berikan nilai MSE yang terkecil, sedangkan model Dekomposisi menghasilkan
nilai Mean Absolute Error (MAE) dan Mean Absolute Percentage Error (MAPE)
yang terkecil. Evaluasi kesesuaian model melalui uji apakah residual model
memenuhi syarat white noise menunjukkan bahwa residual dari model Winters,
Dekomposisi, dan Regresi Runtun waktu adalah belum white noise. Secara
statistik, hal ini berarti proses pemodelan pada ketiga model ini belum selesai
dan dapat dilanjutkan dengan menggunakan model peramalan yang lain. Hasil ini
memberikan peluang untuk dilakukan penelitian lanjutan dengan
mengkombinasikan ketiga model ini dengan model yang lain, misalnya dengan
ARIMA atau FFNN. Sebagai tambahan, seperti pada hasil-hasil sebelumnya,
hasil kajian perbandingan untuk Airline data ini juga telah dipublikasikan dan
secara lengkap dapat dilihat pada Suhartono dkk. (2005a, 2005c).

Bab V. Hasil Empiris

107
5.3. Efek Pemrosesan Awal Data Terhadap Ramalan FFNN
Hasil dari kajian perbandingan antara FFNN dan model-model runtun
waktu klasik di bagian sebelumnya, terutama pada kasus Airline data
memberikan inspirasi untuk dilakukan penelitian lanjutan tentang suatu model
hybrid yang merupakan gabungan antara model runtun waktu klasik dan FFNN.
Pada bagian ini akan diberikan hasil-hasil kajian kombinasi antara metode
dekomposisi sebagai pemrosesan awal data dan FFNN, khususnya untuk
peramalan runtun waktu yang mengandung tren dan musiman. Efek pemrosesan
awal data merupakan salah satu topik sentral pada kompetisi NN untuk
peramalan pada Juni 2005 (lihat www.neural-forecasting.com).
Metode dekomposisi adalah metode peramalan yang bekerja dengan
cara mendekomposisi data menjadi beberapa bagian, terutama komponen tren
dan musiman. Pada bagian ini, metode pemrosesan awal data yang dicoba dan
dibandingkan efeknya adalah detrend, deseasonal, dan detrend-deseasonal
(metode dekomposisi). Kajian ini dilakukan pada dua data, yaitu data simulasi
dan Airline data, yang keduanya mengandung pola tren dan musiman. Gambar
5.6 berikut ini adalah plot runtun waktu dari data simulasi.





Gambar 5.6. Plot runtun waktu dari data simulasi

Test in g dat a
Tr ain ing dat a
Simu lat i on d at a
Bab V. Hasil Empiris

108
Tabel 5.8 adalah hasil-hasil dari efek pemrosesan awal data terhadap
ketepatan ramalan model FFNN pada data training dan testing untuk data
simulasi. Seperti pada bagian sebelumnya, angka lebih dari satu pada kolom
rasio MSE mengindikasikan bahwa ketepatan ramalan pada model tersebut
adalah lebih rendah dibanding model ARIMA, dan sebaliknya. Sedangkan hasil-
hasil efek pemrosesan awal data FFNN pada Airline data dapat dilihat pada
Tabel 5.9. Dalam hal ini, variabel lag input yang digunakan dalam FFNN adalah
lag 1, 12, dan 13, seperti yang telah dipakai oleh Faraway dan Chatfield (1998),
dan Suhartono dkk. (2005a). Sedangkan banyaknya unit neuron di lapis
tersembunyi yang dicobakan adalah 1 sampai 10. Sehingga secara umum FFNN
yang dipakai adalah FFNN(3,q,1), dengan q adalah banyaknya unit neuron di
lapis tersembunyi.
Ada beberapa hal yang dapat diamati dari Tabel 5.8 dan 5.9. Pertama,
detrend adalah pemrosesan awal data FFNN yang menghasilkan nilai ramalan
yang lebih rendah akurasinya dibanding dengan FFNN pada data asli ataupun
ARIMA. Hal ini ditunjukkan oleh nilai rasio MSE pada data testing untuk NN
dengan detrend sebagai pemrosesan awal data yang lebih besar dari 1. Kedua,
deseasonal adalah pemrosesan awal data FFNN yang menghasilkan nilai
ramalan yang paling rendah akurasinya dibanding lainnya. Kondisi ini ditunjukkan
oleh nilai rasio MSE pada data testing yang paling besar. Ketiga, metode
dekomposisi atau kombinasi detrend-deseasonal sebagai pemrosesan awal data
FFNN memberikan ketepatan ramalan yang paling akurat, baik pada data
simulasi ataupun Airline data. Hal ini ditunjukkan oleh nilai rasio MSE yang paling
kecil.
Secara umum, berdasarkan nilai-nilai rasio MSE terhadap model ARIMA
dapat dijelaskan bahwa metode dekomposisi (detrend-deseasonal) adalah
pemrosesan awal data pada FFNN yang menghasilkan ramalan terbaik. Nilai
MSE yang tereduksi sangat signifikan jika dibandingkan dengan FFNN tanpa
pemrosesan dengan metode dekomposisi, yaitu tereduksi 58.8% pada data
simulasi dan 61.8% pada Airline data.

Bab V. Hasil Empiris

109
Tabel 5.8. Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data simulasi

DATA TRAINING DATA TESTING
Model Peramalan dan
Pemrosesan awal data
MSE
Rasio thdp
ARIMA
MSE
Rasio thdp
ARIMA

ARIMA


0,02347

1

0,02011

1

FFNN

(1). Data Asli
a. FFNN (3,1,1)
(**)
b. FFNN (3,10,1)
(*)


(2). Detrend
a. FFNN (3,2,1)
(**)
b. FFNN (3,10,1)
(*)


(3). Deseasonal
. FFNN (3,3,1)
(**) (*)


(4). Detrend-Deseasonal
a. FFNN (3,5,1)
(**)

b. FFNN (3,10,1)
(*)






0,01731
0,00598


0,01701
0,00697


0,55763


0,00511
0,00364




0,738
0,255


0,725
0,297


23,762


0,218
0,155





0,02433
0,40411


0,02524
0,07230


2,95179


0,00948
4,30889




1,210
20,095


1,255
3,595


146,782


0,472
214,266

(*)
: model terbaik pada data training
(**)
: model terbaik pada data testing

Tabel 5.9. Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data Airline

DATA TRAINING DATA TESTING
Model Peramalan dan
Pemrosesan awal data
MSE
Rasio thdp
ARIMA
MSE
Rasio thdp
ARIMA

ARIMA


88,8618


1

1527,03


1

FFNN dan transformasi
data menjadi N(0,1)

(1). Data Asli
a. FFNN (3,1,1)
(**)
b. FFNN (3,10,1)
(*)


(2). Detrend
a. FFNN (3,4,1)
(**)
b. FFNN (3,10,1)
(*)


(3). Deseasonal
a. FFNN (3,6,1)
(**)

b. FFNN (3,10,1)
(*)


(4). Detrend-Deseasonal
a. FFNN (3,4,1)
(**)

b. FFNN (3,10,1)
(*)







92,8729
26,3230


71,0023
20,2050


25,2444
12,9047


35,4608
11,3842





1,045
0,296


0,799
0,227


0,284
0,145


0,399
0,128





1219,81
5299,06

1672,27
5630,35



4218,18
255939,30


582,93
1532,17





0,799
3,470

1,095
3,687



2,762
167,609


0,382
1,003

(*)
: model terbaik pada data training
(**)
: model terbaik pada data testing
Bab V. Hasil Empiris

110
Dengan demikian dapat disimpulkan bahwa pemrosesan awal data runtun
waktu yang mengandung tren dan musiman dengan metode dekomposisi pada
FFNN memberikan efek yang besar terhadap peningkatan akurasi nilai ramalan
pada FFNN. Hasil ini juga memberikan peluang untuk kajian lebih lanjut terhadap
pemakaian model hybrid antara FFNN dengan model-model runtun waktu yang
lain. Seperti pada bagian sebelumnya, hasil-hasil dari kajian ini telah pula
dipublikasikan dan secara lengkap dapat dilihat pada Suhartono dkk. (2005b),
serta Suhartono dan Subanar (2006a).

5.4. Aplikasi FFNN untuk Peramalan Runtun waktu Multivariat
Data runtun waktu dalam beberapa studi empiris seringkali terdiri dari
pengamatan dari beberapa variabel, atau dikenal dengan data deret waktu
multivariat (Box dkk., 1994). Sebagai contoh, dalam studi tentang penjualan
suatu produk, variabel-variabel yang mungkin terlibat adalah volume penjualan,
harga dan biaya iklan.
Seringkali dalam kehidupan sehari-hari kita jumpai data yang tidak hanya
mengandung keterkaitan dengan kejadian pada waktu-waktu sebelumnya, tetapi
juga mempunyai keterkaitan dengan lokasi atau tempat yang lain yang seringkali
disebut dengan data spasial. Model space-time adalah salah satu model yang
menggabungkan unsur dependensi waktu dan lokasi pada suatu data deret
waktu multivariat. Model space-time ini pertama kali diperkenalkan oleh Pfeifer
dan Deutsch (1980a, 1980b).
Model GSTAR (Generalized Space-Time Autoregressive) adalah salah
satu model yang banyak digunakan untuk memodelkan dan meramalkan data
deret waktu dan lokasi. Model ini merupakan pengembangan dari model STAR
(Space-Time Autoregressive) yang diperkenalkan oleh Pfeifer dan Deutsch.
Dalam praktek, model GSTAR ini banyak diaplikasikan pada permasalahan
geologi dan ekologi (Ruchjana, 2003). Model lain yang juga dapat digunakan
untuk pemodelan data deret waktu dan lokasi adalah model VAR atau Vector
Autoregressive (Suhartono dan Atok, 2005).
Bab V. Hasil Empiris

111
Secara matematis, notasi dari model GSTAR(p
1
) adalah sama dengan
model STAR(p
1
). Perbedaan utama dari model GSTAR(p
1
) ini terletak pada nilai-
nilai parameter pada lag spasial yang sama diperbolehkan berlainan. Dalam
notasi matriks, model GSTAR(p
1
) dapat ditulis sebagai berikut (Borovkova dkk.,
2002)
[ ] ) ( ) ( ) (
1
1 0
t k t t
p
k
k k
e Z W Z + +

(5.4.1)
dengan
( )
N
k0
1
k0 0
, , diag K
k
dan ( )
N
k1
1
k1 1
, , diag K
k
,
bobot-bobot dipilih sedemikian hingga 0
ii
w dan


j i ij
w 1.
Sebagai contoh, model GSTAR(1
1
) untuk kasus produksi minyak pada
suatu waktu di tiga lokasi yang berbeda dapat ditulis sebagai berikut (Ruchjana,
2002)
) ( ) 1 ( ] [ ) (
11 10
t t t e Z W Z + + (5.4.2)
atau
1
1
1
]
1

+
1
1
1
]
1

,
_

1
1
1
]
1

1
1
1
]
1

+
1
1
1
]
1

1
1
1
]
1

) (
) (
) (
) 1 (
) 1 (
) 1 (
0
0
0

0 0
0 0
0 0
0 0
0 0
0 0
) (
) (
) (
3
2
1
3
2
1
32 31
23 21
13 12
31
21
11
30
20
10
3
2
1
t e
t e
t e
t z
t z
t z
w w
w w
w w
t z
t z
t z

.
Penaksiran parameter model GSTAR dapat dilakukan dengan menggunakan
metode kuadrat terkecil dengan meminimumkan jumlah kuadrat simpangannya.
Secara lengkap teori dan metodologi yang berkaitan dengan estimasi model
GSTAR ini dapat dibaca di Borovkova et al. (2002) dan Ruchjana (2002).
Pada bagian ini ada tiga kajian utama yang dilakukan, yaitu evaluasi
terhadap kondisi stasioneritas model space-time GSTAR(1
1
), evaluasi metode
penentuan bobot lokasi (spasial), dan kajian perbandingan ketepatan ramalan
antara FFNN dengan model-model runtun waktu multivariat. Dalam hal ini, kajian
difokuskan pada runtun waktu multivariat yang juga merupakan spasial runtun
waktu.

Bab V. Hasil Empiris

112
5.4.1. Evaluasi Kondisi Stasioneritas Model GSTAR(1
1
)
Borovkova dkk. (2002) dan Ruchjana (2003) menyatakan bahwa model
GSTAR, khususnya model GSTAR(1
1
), merupakan model versi terbatas
(restricted version) dari model VAR. Oleh sebab itu, kondisi stasioneritas dari
model GSTAR dapat diturunkan dari kondisi stasioneritas pada model VAR.
Jika diberikan ) (t Z
i
dengan t , } , , 2 , 1 { T K merupakan indeks
parameter waktu dan } , , 2 , 1 { N i K menunjukkan variabel yang terhitung dan
terbatas (misalkan berupa hasil minyak bulanan pada lokasi yang berbeda),
maka model VAR(p) secara umum dapat dinyatakan dalam (lihat Brockwell dan
Davis, 1991; Hamilton, 1994; atau Wei, 1990)
) ( ) ( ) 2 ( ) 1 ( ) (
2 1
t p t t t t
p
e Z Z Z Z + + + + L , (5.4.3)
dengan ) (t Z adalah vektor deret waktu multivariat yang terkoreksi nilai rata-
ratanya, ) (B
i
adalah suatu matriks autoregressive polinomial orde i, dan ) (t e
menyatakan suatu vektor error yang white noise.
Kondisi stasioneritas dari model VAR(p) dapat ditemukan pada beberapa
buku runtun waktu, antara lain di Brockwell dan Davis (1991), Hamilton (1994),
atau Wei (1990). Berikut ini adalah proposisi yang berkaitan dengan kondisi
stasioneritas pada model VAR(p).

Proposisi 5.4.1. Suatu model VAR(p) adalah proses yang stasioner jika nilai-nilai
eigen dari matrik autoregressive polinomial orde p yang memenuhi
0
2
2
1
1


p
p p p
n
I L
semuanya berada didalam unit lingkaran, atau 1 | | < .

Bukti. Lihat Hamilton (1994) halaman 285-286.
Secara khusus, model GSTAR(1
1
), ) ( ) 1 ( ] [ ) (
11 10
t t t e Z W Z + + ,
dapat direpresentasikan dalam model VAR(1), ) ( ) 1 ( ) (
1
t t t e Z Z + , dengan
] [
11 10 1
W + . (5.4.4)
Bab V. Hasil Empiris

113
Dengan demikian, model GSTAR(1
1
) secara umum adalah suatu proses yang
stasioner jika semua nilai eigen dari matrik [ ] W
11 10
+ memenuhi Proposisi
5.4.1, yaitu semua eigen berada didalam unit lingkaran atau 1 | | < .
Borovkova dkk. (2002) dan Ruchjana (2003) menerapkan Proposisi 5.4.1,
dan mendapatkan suatu teorema untuk kondisi stasioneritas model GSTAR(1
1
)
seperti berikut.

Teorema 5.4.1. Suatu model GSTAR(1
1
) adalah suatu proses yang stasioner,
jika parameter-parameter
0 i
pada
10
dan
1 i
pada
11
memenuhi
1 | |
1 0
+
i i
dan 1 | |
1 0

i i
. (5.4.5)

Berikut ini akan ditunjukkan secara empiris beberapa kasus dimana
Teorema 5.4.1 yang dihasilkan oleh Borovkova dkk. (2002) adalah tidak valid dan
tidak sesuai dengan Proposisi 5.4.1 yang merupakan dasar penurunan teorema
tersebut.
Kasus 1
Pada saat ada satu atau lebih parameter pada
10
yang bernilai 1, dan
semua parameter pada
11
bernilai 0. Misalnya untuk kasus produksi
minyak bulanan di tiga lokasi diperoleh model GSTAR(1
1
) sebagai berikut .
1
1
1
]
1

+
1
1
1
]
1

,
_

1
1
1
]
1

1
1
1
]
1

+
1
1
1
]
1

1
1
1
]
1

) (
) (
) (
) 1 (
) 1 (
) 1 (
0
0
0

0 0 0
0 0 0
0 0 0
1 0 0
0 1 0
0 0 1
) (
) (
) (
3
2
1
3
2
1
32 31
23 21
13 12
3
2
1
t e
t e
t e
t z
t z
t z
w w
w w
w w
t z
t z
t z
. (5.4.6)
Berdasarkan Teorema 5.4.1 yang diperoleh oleh Borovkova dkk., model ini
termasuk dalam proses yang stasioner.
Hal ini kontradiktif dengan kondisi stasioner pada model VAR(1) berdasarkan
Proposisi 5.4.1, karena pada model (5.4.6) ini diperoleh nilai eigen yang
semuanya bernilai 1 yang berarti tidak memenuhi syarat kondisi stasioner, yaitu
didalam unit lingkaran atau 1 | | < .
Bab V. Hasil Empiris

114
Kasus 2.
Pada saat ada satu atau lebih parameter
0 i
dan
1 i
yang hasil
penjumlahannya bernilai lebih dari 1. Sebagai contoh, pada kasus produksi
minyak bulanan di tiga lokasi yang berada dalam satu group (jarak yang sama),
sehingga digunakan bobot seragam, diperoleh model GSTAR(1
1
) sebagai
berikut
1
1
1
]
1

+
1
1
1
]
1

,
_

1
1
1
]
1

1
1
1
]
1

+
1
1
1
]
1

1
1
1
]
1

) (
) (
) (
) 1 (
) 1 (
) 1 (
0 5 , 0 5 , 0
5 , 0 0 5 , 0
5 , 0 5 , 0 0

8 , 0 0 0
0 6 , 0 0
0 0 4 , 0
3 , 0 0 0
0 5 , 0 0
0 0 3 , 0
) (
) (
) (
3
2
1
3
2
1
3
2
1
t e
t e
t e
t z
t z
t z
t z
t z
t z
.
(5.4.7)
Model ini berdasarkan Teorema 1 merupakan proses yang tidak stasioner,
karena pada lokasi 2 dan 3 didapatkan :

1 , 1 | 6 , 0 5 , 0 | | |
21 20
+ + dan
1 , 1 | 8 , 0 3 , 0 | | |
31 30
+ + .
Hasil ini tidak memenuhi kondisi stasioner model GSTAR(1
1
) berdasarkan
Teorema 5.4.1 yang mensyaratkan 1 | |
1 0
+
i i
.

Kesimpulan ini juga merupakan kesimpulan yang kontradiktif dengan hasil
kondisi stasioneritas dengan representasi VAR(1), dimana secara matematis
model GSTAR(1
1
) ini dapat pula dituliskan dalam bentuk
1
1
1
]
1

+
1
1
1
]
1

1
1
1
]
1

1
1
1
]
1

) (
) (
) (
) 1 (
) 1 (
) 1 (

3 , 0 4 , 0 4 , 0
3 , 0 5 , 0 3 , 0
2 , 0 2 , 0 3 , 0
) (
) (
) (
3
2
1
3
2
1
3
2
1
t e
t e
t e
t z
t z
t z
t z
t z
t z
. (5.4.8)
Dengan menggunakan operasi matrik, diperoleh nilai-nilai eigen dari matrik
parameter tersebut, yaitu 964 , 0
1
, 143 , 0
2
dan 007 , 0
3
yang meme-
nuhi kondisi stasioneritas berdasarkan Proposisi 5.4.1. Dengan demikian,
dalam representasi VAR(1), model ini merupakan proses yang stasioner.

Bab V. Hasil Empiris

115
Berdasarkan hasil pada dua contoh kasus di atas dapat dijelaskan bahwa
Teorema 5.4.1 yang dikemukakan oleh Borovkova dkk. (2002) adalah tidak
benar. Kesalahan ini diduga karena pada proses penurunan untuk mendapatkan
Teorema 5.4.1 terjadi kesalahan pada eliminasi bobot-bobot parameter lokasi
atau
ij
w . Oleh karena itu, pengujian kondisi stasioneritas parameter model
GSTAR(1
1
) secara matematik adalah benar jika menggunakan nilai-nilai eigen
(dari hasil representasi VAR(1)) seperti pada Proposisi 5.4.1. Hasil dari kajian
koreksi teorema tentang stasioneritas model GSTAR(1
1
) ini telah dipublikasikan
dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2007).

5.4.2. Evaluasi Penentuan Bobot Lokasi (Spasial) yang Optimal pada
Model GSTAR
Pemilihan atau penentuan bobot lokasi merupakan salah satu perma-
salahan utama pada pemodelan GSTAR. Beberapa cara penentuan bobot lokasi
yang telah banyak digunakan dalam aplikasi model GSTAR adalah (lihat
Borovkova dkk., 2002; Ruchjana, 2002)
(i). bobot Seragam (Uniform), yaitu
i ij
n w 1 , dengan
i
n banyaknya lokasi
yang berdekatan dengan lokasi i ,
(ii). bobot Biner (Binary), yaitu 0
ij
w atau 1, tergantung pada suatu batasan
tertentu,
(iii). bobot Inverse Jarak, dan
(iv). bobot berdasarkan pada semi-variogram atau kovariogram dari variabel
antar lokasi. Cara ini memungkinkan suatu bobot yang bertanda negatif.

Suhartono dan Subanar (2006b) serta Suhartono dan Atok (2006) telah
melakukan kajian simulasi untuk mengevaluasi kelemahan dari metode penen-
tuan bobot lokasi tersebut, khususnya pada bobot seragam. Hasil kajian
menunjukkan bahwa penentuan bobot lokasi dengan bobot seragam mem-
berikan hasil yang tidak valid pada kasus dimana besar dan tanda dari koefisien
hubungan antar lokasi adalah berbeda nilai dengan tanda sama, dan pada kasus
berbeda nilai dan berbeda tanda. Selanjutnya, Suhartono dan Subanar (2006b)
Bab V. Hasil Empiris

116
memperkenalkan suatu metode penentuan bobot baru yang dapat
menyelesaikan keterbatasan tersebut, yaitu dengan menggunakan hasil
normalisasi korelasi silang antar lokasi pada lag waktu yang bersesuaian.
Secara umum korelasi silang antar dua variabel atau antara lokasi ke-i
dan ke-j pada lag waktu ke-k, )], ( ), ( [ Kor k t Z t Z
j i
didefinisikan sebagai (lihat
Box dkk., 1994; Wei, 1990)
,

) (
) (
j i
ij
ij
k
k

K , 2 , 1 , 0 t t k (5.4.9)
dengan ) (k
ij
adalah kovarians silang antara kejadian di lokasi ke-i dan ke-j
pada lag waktu ke-k,
i
dan
j
adalah deviasi standar dari kejadian di lokasi
ke-i dan ke-j. Taksiran dari korelasi silang ini pada data sampel adalah

,
_


,
_


+
n
t
j j
n
t
i i
n
k t
j j i i
ij
Z t Z Z t Z
Z k t Z Z t Z
k r
1
2
1
2
1
] ) ( [ ] ) ( [
] ) ( ][ ) ( [
) ( . (5.4.10)

Bartlett dalam Wei (1990) telah menurunkan varians dan kovarians dari
besaran korelasi silang yang diperoleh dari sampel. Dibawah hipotesis bahwa
dua data deret waktu
i
Z dan
j
Z adalah tidak berkorelasi, Bartlett menunjukkan
bahwa

1
]
1

1
) ( ) ( 2 1
1
)] ( [ Varians
s
jj ii ij
s s
k n
k r , (5.4.11)
sehingga ketika
i
Z dan
j
Z merupakan deret yang white noise diperoleh

k n
k r
ij

1
)] ( [ Varians . (5.4.12)
Untuk ukuran sampel yang besar, ) ( k n dalam Persamaan (5.4.12) seringkali
digantikan dengan n . Dibawah asumsi distribusi normal, maka nilai-nilai korelasi
silang pada sampel ini dapat diuji apakah sama atau berbeda dengan nol.
Bab V. Hasil Empiris

117
Selanjutnya, metode penentuan bobot lokasi baru yang diperkenalkan
Suhartono dan Subanar (2006b) adalah melalui normalisasi dari besaran-
besaran korelasi silang antar lokasi pada waktu yang bersesuaian. Proses ini
secara umum menghasilkan bobot lokasi untuk model GSTAR(1
1
) seperti berikut
,
| ) 1 ( |
) 1 (

i k
ik
ij
ij
r
r
w dengan j i , (5.4.13)
dan bobot ini memenuhi 1 | |
1

j
ij
w
Penentuan bobot lokasi melalui normalisasi dari besaran korelasi silang
ini kemudian telah disempurnakan oleh Suhartono dan Subanar (2006b), yaitu
melalui normalisasi hasil inferensia statistik besaran korelasi silang antar lokasi
pada waktu yang bersesuaian tersebut. Uji hipotesis atau proses inferensia
statistik dilakukan dengan menggunakan taksiran interval, yaitu

1
]
1

t

n
t k r
k n df ij
1
) (
2 ; 2 /
. (5.4.14)
Proses ini secara umum menghasilkan bobot lokasi untuk model GSTAR(1
1
)
seperti pada Persamaan (5.4.13) dengan hanya melibatkan korelasi silang,
) 1 (
ij
r , yang signifikan berbeda dengan nol pada proses inferensia statistik, yaitu
,
| ) 1 ( |
) 1 (

i k
ik
ij
ij
r
r
w dengan j i ,
dan bobot ini juga memenuhi 1 | |
1

j
ij
w
Bobot-bobot lokasi dengan menggunakan normalisasi dari hasil inferensia
statistik terhadap korelasi silang antar lokasi pada lag waktu yang bersesuaian ini
memungkinkan semua bentuk kemungkinan hubungan antar lokasi. Dengan
demikian, tidak ada lagi batasan yang kaku tentang besarnya bobot yang
terutama tergantung dari jarak antar lokasi. Bobot ini juga memberikan
fleksibilitas pada besar dan tanda hubungan antar lokasi yang bisa berlainan
(positif dan negatif). Hasil-hasil implementasi kajian empiris ini telah dipublikasi-
kan dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2006b).
Bab V. Hasil Empiris

118
5.4.3. Perbandingan Ketepatan Ramalan antara FFNN dan Model-model
Runtun waktu Multivariat
Bagian ini akan menjelaskan hasil-hasil kajian awal berkaitan dengan
perbandingan ketepatan ramalan antara model GSTAR, VAR, FFNN dengan
arsitektur berdasarkan GSTAR (dinotasikan dengan FFNN-GSTAR), dan FFNN
berdasarkan VAR (dinotasikan FFNN-VAR). Perbedaan utama FFNN-GSTAR
dan FFNN-VAR adalah pada arsitektur NN yang digunakan, khususnya pada
banyaknya neuron di lapis output. FFNN-GSTAR terdiri dari satu neuron di lapis
output, sedangkan FFNN-VAR mempunyai banyaknya neuron yang sama
dengan banyaknya series multivariat yang digunakan.
Kajian perbandingan ini dilakukan pada kasus real yaitu data produksi
minyak bulanan di tiga lokasi sumur pengeboran di Jawa Barat yang diperoleh
dari Ruchjana (2002). Dalam hal ini, model GSTAR dan VAR yang digunakan
adalah GSTAR(1
1
) dan VAR(1). Bentuk arsitektur dari FFNN-GSTAR yang
digunakan dapat dilihat pada Gambar 5.7, sedangkan arsitektur FFNN-VAR
ditunjukkan seperti pada Gambar 5.8. Dari Gambar 5.7 dapat dilihat bahwa
hanya ada satu unit neuron di lapis output yang digunakan, yaitu
t
Y

yang
menyatakan suatu vektor yang terdiri dari data produksi minyak di tiga lokasi
sumur pengeboran. Secara matematis
t
Y

adalah seperti berikut,


1
1
1
]
1

t
t
t
t
3 Y
2 Y
1 Y
Y

.
Hal ini berbeda dengan Gambar 5.8 yang terdiri dari tiga neuron di lapis output.
Neuron 1, 2, dan 3 secara berurutan menunjukkan produksi minyak di lokasi
sumur pengeboran 1, 2 dan 3.
Data produksi minyak ini terdiri dari 60 pengamatan, yang selanjutnya
dibagi menjadi dua bagian yaitu 50 sebagai data training dan 10 untuk data
testing. Hasil-hasil perbandingan dari keempat model tersebut dapat dilihat pada
Tabel 5.10.


Bab V. Hasil Empiris

119










Lapis Output
(Varia b el Dep end en)






Lapis Tersembunyi
(q unit neuron)



Lapis Input
(La g Va ria bel Dep end en)


Gambar 5.7. Arsitektur FFNN-GSTAR(1
1
) dengan satu lapis tersembunyi,
6 unit input, q unit neuron di lapis tersembunyi, dan satu unit
neuron di lapis output.

Keterangan beberapa notasi dari Gambar 5.7 di atas adalah sebagai berikut :
t
1
1

1
1
]
t
t
t
Y1
Y Y2
Y3
)
) )
)
,
1
1

1
1
]
t-1
*
t-1
Y1
Y1 0
0
)
, 2
1
1

1
1
]
*
t-1 t-1
0
Y Y2
0
)
, 3
1
1

1
1
]
*
t-1
t-1
0
Y 0
Y3
)
,
12 13
2 3 w w 1 +
1

1
1
]
t-1 t-1
*
t-1
Y Y
F1 0
0
) )
,
21 23
2 1 3 w w
1
1
+
1
1
]
*
t-1 t-1 t-1
0
F Y Y
0
) )
, dan
31 32
3
1 2 w w
1
1

1
1 +
]
*
t-1
t-1 t-1
0
F 0
Y Y
) )
.
t
Y
)


1
1
t
F



*
1
2
t
Y



1
2
t
F


) , , (
0 01 0

q j
K
) , , , (
1 0

p j
K
M

*
1
1
t
Y



*
1
3
t
Y



1
3
t
F


Bab V. Hasil Empiris

120















Lapis Input Lapis Output
(La g Va ria bel Dep end en) (Varia b el Dep end en)

Lapis Tersembunyi
(q unit neuron)

Gambar 5.8. Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit
input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di
lapis output.

Tabel 5.10. Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,
FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak
MSE Data Training MSE Data Testing
Model Peramalan
Y1 Y2 Y3 Y1 Y2 Y3
1. GSTAR(11) 0,4967 0,6485 0,3097 0,1772 0,2554 0,0917
2. VAR(1) 0,4982 0,6334 0,4017 0,2070 0,2580 0,0972

3. FFNN-GSTAR(11)
- 1 neuron
- 2 neuron
- 3 neuron
- 4 neuron
- 5 neuron



0,4870
0,3762
0,3328
0,2710
0,1983


0,6510
0,5406
0,4471
0,3606
0,3247


0,2470
0,2261
0,1742
0,1804
0,1381


0,1794
0,2505
0,5052
0,1431
0,2711


0,2398
0,3140
0,3353
0,3481
0,6272


0,0633
0,0421
0,5013
0,0355
0,0790

4. FFNN-VAR(1)
- 1 neuron
- 2 neuron
- 3 neuron
- 4 neuron
- 5 neuron



0,7104
0,6169
0,4556
0,4852
0,3947


0,9664
0,5964
0,4353
0,2123
0,2210


0,4001
0,2188
0,2081
0,2651
0,1501


0,2782
0,3997
0,1780
0,1399
0,3298


0,7887
0,7973
0,6184
0,2583
0,7312


0,0436
0,0358
0,0463
0,0736
0,0878
2
t
Y
)


1
1
t
Y



1
2
t
Y



1
3
t
Y


1
t
Y
)

3
t
Y
)

) , , (
0 01 0

q j
K
) , , , (
1 0

p j
K
M
Bab V. Hasil Empiris

121
Berdasarkan hasil-hasil pada Tabel 5.10 dapat dijelaskan bahwa secara
umum FFNN-GSTAR(1
1
) dan FFNN-VAR(1) memberikan hasil ramalan produksi
minyak yang lebih baik dibanding model GSTAR(1
1
) dan VAR(1). Hal ini dapat
dilihat pada hasil ramalan FFNN-GSTAR(1
1
) dan FFNN-VAR(1) dengan empat
neuron di lapis tersembunyi. Hasil ini memberikan peluang yang besar untuk
dilakukan kajian lebih lanjut berkaitan dengan FFNN untuk peramalan runtun
waktu multivariat, baik yang dikembangkan dari model GSTAR atau VAR.


- 122 -
BAB VI
KESIMPULAN DAN MASALAH TERBUKA

Pada bab ini akan diberikan kesimpulan dari penelitian berdasarkan pada
pembahasan dalam Bab III, IV, dan V. Pada akhirnya, diberikan pula beberapa
masalah terbuka yang berkaitan dengan peramalan runtun waktu dengan meng-
gunakan FFNN, yang mencakup dua kasus utama runtun waktu yaitu kasus yang
univariat dan multivariat.

6.1 Kesimpulan
Bentuk umum dari FFNN dengan satu lapis tersembunyi dan satu unit
neuron di lapis output yang digunakan untuk peramalan runtun waktu univariat
secara matematis adalah
1
1
]
1

+ +


p
i
o h
j k i
h
ji
q
j
h
j
o
j
o
k
b b x w f w f y
1
) (
1
) (
] ) ( [ . (6.1.1)
Estimasi parameter (bobot) dari model ini dilakukan dengan menerapkan
algoritma backpropagation, yaitu terdiri dari dua tahap utama. Pertama adalah
penentuan parameter pada lapis output melalui
h
k j
n
k
o
k
o
j
a
w
Q
) (
1
) (
) (

w
, dan

n
k
o
k
o
b
Q
1
) (
) (

w
, (6.1.2)
dengan ( )


q
l
h
k l
o
l
o
k k
o
k
a w f y y
) ( ) ( ) ( ) (
] [ . Kedua adalah penentuan parameter
pada lapis tersembunyi, yaitu
) (
1
) (
) (
k i
n
k
h
k j
h
ji
x
w
Q

w
, dan

n
k
h
k j
h
j
b
Q
1
) (
) (

w
, (6.1.3)
dengan )] ( [
) ( ) ( ) (
h
k j
h
j
o
j
o
k
h
k j
n f w

.
Estimasi parameter yang juga dikenal dengan pembelajaran network
melalui backpropagation dilakukan dengan tujuan menemukan suatu
penyelesaian
*
w pada permasalahan optimisasi ) ( min arg w Q
W w
, yaitu
Bab VI. Kesimpulan dan Masalah Terbuka

123
( ) 2 / )) , ( [( ) ( min arg
2 *
w w w X f Y E Q
W w

, (6.1.4)
dengan
*
w adalah indeks dari parameter network yang optimal. Dengan
memberikan beberapa persyaratan, suatu estimator backpropagation
)
~
(
~
~ ~
1 n n n n n n
f Y f +

w w , K , 2 , 1 n . (6.1.5)
dengan
0
~
w adalah sembarang, dapat ditunjukkan bahwa salah satu
* ~
W w
n
} 0 )) ( ( : { w w
n
q E dengan probabilitas 1 atau
n
w
~
dengan
probabilitas 1.
Melalui beberapa persyaratan, sifat asimtotis estimator telah terbukti
mengikuti distribusi normal multivariat asimtotis, yaitu
) ( N ) (
* *
C 0 w w , n
d
n
, (6.1.6)
dengan
1 1 *
A B A C , )) , ( (
* 2 *
w A
t
Z l E , ) ) , ( ) , ( (
* * *
w w B
t t
Z l Z l E .
Dengan didukung oleh beberapa corollary, proposisi dan teorema, dapat
dikontruksi uji statistik Wald dibawah s Sw

:
0
H yang dapat digunakan untuk
inferensia statistik pada estimator-estimator model yaitu
2 1
) (

) (
q
d
n n n n
n W

s w S s w S , (6.1.7)
dengan '
n n
S C S

.
Dengan didukung beberapa asumsi dan teorema, suatu uji hipotesis
bertahap melalui R
2
incremental
telah berhasil dikonstruksi. Uji ini melalui tiga tahap
utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full Model),
dan penentuan uji statistik, yaitu

) (
2
) (
) ( ) (
2
l incrementa
) 1 (
) (
F F
F R
df R
df df R
F

, (6.1.8)
dengan
2 2 2
incremental ( ) ( ) F R
R R R ,
) ( R
df
R
l n adalah derajat bebas Model
Tereduksi, dan
) ( F
df
F
l n adalah derajat bebas Model Lengkap.
Hasil kajian teoritis ini selanjutnya digunakan untuk mengkonstruksi dua
prosedur baru untuk pembentukan model FFNN yang diaplikasikan untuk
Bab VI. Kesimpulan dan Masalah Terbuka

124
peramalan runtun waktu yang merupakan kontribusi utama dari hasil penelitian
disertasi ini. Prosedur pertama mengimpementasikan uji statistik F pada
R
2
incremental
dalam skema forward yang dimulai dengan penentuan banyaknya unit
di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.
Prosedur kedua menggunakan kombinasi antara uji R
2
incremental
dalam skema
forward untuk penentuan banyaknya unit di lapis tersembunyi dengan uji Wald
dalam skema backward untuk penentuan variabel input yang optimal. Hasil-hasil
ini dapat dipandang sebagai pengembangan dari prosedur yang diperkenalkan
oleh Kaashoek dan Van Dijk (2002).
Hasil kajian empiris berkaitan dengan aplikasi uji bertahap melalui
inferensia R
2
incremental
dan uji Wald menunjukkan bahwa pemilihan model terbaik
melalui uji bertahap pada R
2
incremental
dan uji Wald memberikan hasil yang sesuai
dengan yang diharapkan. Hal ini memberikan bukti, bahwa statistik uji yang
dikonstruksi bekerja dengan baik. Hasil perbandingan banyaknya running juga
menunjukkan bahwa dua prosedur baru yang diperkenalkan relatif lebih efisien
dibanding prosedur Kaashoek dan Van Dijk, yaitu jumlah running yang lebih
sedikit.
Pada kajian tentang efek pemrosesan awal data, khususnya pada data
runtun waktu yang mengandung tren dan musiman, telah menghasilkan suatu
pendekatan model baru kombinasi antara metode dekomposisi dan FFNN.
Evaluasi perbandingan ketepatan ramalan menunjukkan bahwa kombinasi
metode dekomposisi sebagai pemrosesan awal data dan FFNN memberikan
hasil ramalan dengan ketepatan paling tinggi dibanding model Winters, ARIMA,
FFNN dengan cara pemrosesan awal data yang lain. Kajian empiris tentang
perbandingan antara model FFNN dengan model-model runtun waktu univariat
yang klasik menunjukkan bahwa model FFNN dengan cara pemrosesan awal
data yang tepat cenderung memberikan hasil yang lebih baik jika dibandingkan
dengan model-model runtun waktu klasik.
Sebagai tambahan, hasil kajian tentang model GSTAR dikaitkan dengan
aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan
baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk
Bab VI. Kesimpulan dan Masalah Terbuka

125
penentuan bobot lokasi yang optimal pada model GSTAR(1
1
). Metode baru ini
dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik
dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti
sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas
parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan
dengan teorema stasioneritas parameter model GSTAR(1
1
) yang dikemukakan
oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan
runtun waktu multivariat yang dikembangkan dari model GSTAR dan VAR pada
data produksi minyak, terbukti memberikan hasil ramalan yang lebih baik
dibanding model GSTAR dan VAR.

6.2 Masalah Terbuka
FFNN dalam kerangka pemodelan statistik dapat dipandang sebagai
model nonlinear yang fleksibel sebagai alat analisis data untuk peramalan runtun
waktu yang mempunyai peluang yang besar untuk dikembangkan dan dikaji lebih
lanjut, baik pada kasus univariat dan terlebih lagi pada kasus yang multivariat.
Berdasarkan pembahasan pada penelitian ini diperoleh beberapa permasalahan
terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :
1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,
termasuk data spasial runtun waktu. Uji ini akan memberikan argumen yang
fundamental terhadap kelayakan pemakaian suatu model nonlinear,
khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun
waktu.
2. Pengembangan prosedur pembentukan model pada NN dengan meng-
kombinasikan R
2
incremental
dan uji Wald untuk memutus koneksi input ke unit
neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-
sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada
aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.
3. Pengembangan NN untuk peramalan runtun waktu pada data yang
nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak
Bab VI. Kesimpulan dan Masalah Terbuka

126
kontinu dan tidak berdistribusi Normal. Hal utama yang mendasari
pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada
peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat
kualitatif.
4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan
beberapa model atau metode analisis data lainnya, misalnya Wavelet NN
ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.
Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini
merupakan dasar utama pengembangan suatu model hybrid yang
mengkombinasikan NN dengan metode yang lainnya.

127
RINGKASAN

FEEDFORWARD NEURAL NETWORKS
UNTUK PEMODELAN RUNTUN WAKTU

oleh

Suhartono

1. PENDAHULUAN
Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar
variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan
nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa
dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan
Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam
bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan
ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya
kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi
bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk
diaplikasikan.
Model Neural Networks (NN) merupakan salah satu contoh model nonlinear
yang mempunyai bentuk fungsional yang fleksibel dan mengandung beberapa
parameter yang tidak dapat diinterpretasikan seperti pada model parametrik.
Penggunaan model NN dalam berbagai bidang terapan secara umum didasari
motivasi hasil matematika yang menyatakan bahwa di bawah syarat yang tidak
terlalu ketat, suatu model NN yang relatif sederhana dapat digunakan untuk
pendekatan semua fungsi Borel yang dapat diukur pada sebarang derajat
akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko (1989), Funahashi
(1989), Hornik dkk. (1989, 1990), dan White (1990).
Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi
adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk
menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,
Ringkasan 128
pattern recognition, signal processing, dan proses kontrol. Sarle (1994)
menyatakan bahwa ada tiga penggunaan utama dari NN, yaitu sebagai suatu
model dari sistem syaraf biologi dan kecerdasan, sebagai prosesor signal real-
time yang adaptif atau pengontrol yang diimplementasikan dalam hardware untuk
suatu terapan seperti robot, dan sebagai metode analisis data.
Model Feed Forward Neural Networks (FFNN) adalah salah satu bentuk
model NN yang dapat dipandang sebagai suatu kelompok dari model yang
sangat fleksibel yang dapat digunakan untuk berbagai aplikasi. Beberapa
referensi berkaitan dengan konsep dan bentuk dari model FFNN secara umum
dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999). Secara
statistik, model FFNN merupakan suatu bagian dari kelompok pemodelan yaitu
model nonlinear regresi dan model diskriminan. Referensi yang lengkap
berkaitan dengan perbandingan antara beberapa model NN dengan model-
model statistik yang klasik dan modern dapat dilihat pada Cheng dan Titterington
(1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994), dan beberapa
artikel di Cherkassky dkk. (1994).
Dalam penerapannya, FFNN mengandung sejumlah parameter (weight)
yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu
bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input
dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya
parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN
yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada
Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan
Marks II (1999).
Secara umum ada dua kelompok teknik atau prosedur yang biasanya
digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu
prosedur yang general-to-specific atau top-down yaitu suatu prosedur yang
dimulai dari model yang besar (komplek) dan kemudian menerapkan suatu
algoritma untuk mereduksi banyaknya parameter (banyaknya unit pada lapis
tersembunyi dan banyaknya variabel input) dengan menggunakan aturan
pemberhentian iterasi tertentu, dan prosedur yang specific-to-general atau
Ringkasan 129
bottom-up yaitu suatu prosedur yang justru dimulai dari model yang sederhana.
Dalam beberapa literatur NN prosedur pertama lebih dikenal dengan istilah
"pruning" (Reed, 1993; Reed dan Marks II, 1999), sedangkan dalam kerangka
pemodelan statistik dapat dipandang sebagai metode backward. Prosedur kedua
lebih dikenal dengan istilah constructive learning dan salah satu yang telah
banyak dikenal adalah cascade correlation (Fahlman dan Lebiere, 1990;
Littmann dan Ritter, 1996; Prechelt, 1997), yang dapat dipandang sebagai suatu
metode forward dalam pemodelan statistik.
Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur pruning
dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan
(R
2
incremental
), analisis komponen utama, dan analisis secara grafik, untuk
mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel
input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White
(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz
Bayesian Information Criteria pada prosedur bottom-up untuk penambahan
banyaknya unit lapis tersembunyi dan banyaknya input sampai diperoleh model
FFNN yang optimal.
Pada perkembangannya, prosedur statistika inferensia juga diterapkan
dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,
distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan
untuk mendapatkan model yang optimal dari FFNN. Terasvirta dan Lin (1993)
adalah kelompok peneliti pertama yang mengaplikasikan prosedur statistika
inferensia untuk mendapatkan banyaknya unit lapis tersembunyi yang optimal
pada model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir
tentang pembentukan model FFNN dengan penggunaan statistika inferensia
dapat dilihat pada Anders dan Korn (1999), dan Medeiros dkk. (2002).
Peramalan data runtun waktu adalah salah satu bidang pemodelan statistik
yang sejak awal telah banyak digunakan untuk aplikasi model NN. Lapedes dan
Farber (1987) merupakan salah satu dari beberapa peneliti pertama yang
menggunakan NN untuk peramalan data runtun waktu. Selanjutnya, banyak
penelitian dilakukan berkaitan dengan prediksi pada data real runtun waktu; hal
Ringkasan 130
ini antara lain dapat dilihat pada de Groot dan Wurtz (1991), Weigend dan
Gershenfeld (1993), Swanson dan White (1995), Weigend (1996), Faraway dan
Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab (2000), Yao dan
Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van Dijk (2001, 2002).
Secara umum dari beberapa penelitian yang ada tersebut, fokus utama yang
dibahas adalah bagaimana mendapatkan model NN yang sesuai untuk suatu
data runtun waktu. Isu yang sampai sekarang masih merupakan pertanyaan
terbuka dan banyak peneliti lakukan dalam penerapan model NN untuk
pemodelan runtun waktu adalah dalam rangka menjawab beberapa pertanyaan
berikut :

(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel
input awal sebagai kandidat yang sesuai?
(2). Bagaimana cara menentukan variabel input yang tepat?
(3). Bagaimana cara menentukan banyaknya unit yang tepat pada lapis
tersembunyi?
(4). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian
suatu model NN?
(5). Apa bentuk pemrosesan awal data yang tepat pada NN?

Ada beberapa prosedur pembentukan model NN untuk pemodelan runtun
waktu yang telah diperkenalkan oleh beberapa peneliti terdahulu. Namun,
sampai saat ini belum ada satu prosedur yang diterima sebagai suatu prosedur
standar oleh kalangan peneliti NN. Dengan demikian, salah satu permasalahan
utama dalam pembentukan model NN dalam kerangka pemodelan statistik,
khususnya model runtun waktu adalah masih belum adanya suatu prosedur
pembentukan model yang diterima secara standar untuk mendapatkan model NN
yang terbaik pada suatu data runtun waktu, yaitu mulai tahap identifikasi,
estimasi parameter dan uji hipotesis yang berkaitan dengan signifikansi
parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian model
melalui suatu kriteria (uji statistik) tertentu.
Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki oleh
peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model
Ringkasan 131
NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang
standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung
pembentukan prosedur standar tersebut adalah sebagai berikut :
(1). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang
tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan
runtun waktu.
(2). Pengkajian dan pengembangan lebih lanjut tentang prosedur pem-
bentukan model FFNN yang optimal (kombinasi yang tepat antara
banyaknya input dan banyaknya unit di lapis tersembunyi) dengan
mengimplementasikan sifat-sifat estimator (weight) dan kriteria statistik
yang akan diperoleh untuk pemodelan runtun waktu.

2. ANALISIS RUNTUN WAKTU
Secara umum, analisis runtun waktu menurut Chatfield (2001) mempunyai
beberapa tujuan, yaitu peramalan, pemodelan dan kontrol. Peramalan berkaitan
dengan problem pembentukan model dan metode yang dapat digunakan untuk
menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan
suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka
panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan
adalah peramalan lebih cenderung pada suatu model yang black-box untuk
mendapatkan ramalan, sedangkan pada pemodelan cenderung pada model
yang dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi
berkaitan dengan hubungan antar variabel pada suatu data runtun waktu.
Sedang tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya
signal processing.
Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,
diawali oleh Yule (1927) yang memperkenalkan model linear autoregresi (AR)
untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan
dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,
Ringkasan 132
sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya
kelas model linear Autoregressive Integrated Moving Average (ARIMA).
Brockwell dan Davis (1991) mendefinisikan bahwa suatu proses , {
t
Y
} , 2 , 1 , 0 K t t t disebut mengikuti proses atau model ARMA(p,q) jika } {
t
Y
adalah stasioner dan jika untuk setiap t ,
q t q t t p t p t t
Y Y Y

+ + + L L
1 1 1 1
, (2.1)
dengan ) , 0 ( WN ~ } {
2

t
. } {
t
Y disebut suatu proses ARMA(p,q) dengan mean
jika } {
t
Y adalah suatu proses ARMA(p,q). Persamaan (2.1) dapat ditulis
secara simbolik dalam bentuk yang lebih compact, yaitu
t t
B Y B ) ( ) ( , (2.2)
dengan dan adalah polinomial derajat p dan q, yaitu
p
p
z z z L
1
1 ) ( (2.3)
dan
q
q
z z z + + + L
1
1 ) ( (2.4)
dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan
dengan
j t t
j
Y Y B

, K , 2 , 1 , 0 t t j . (2.5)
Box dan Jenkins pada tahun 1976 mengembangkan suatu prosedur yang
lengkap untuk metodologi model ARIMA yang sampai sekarang digunakan
sebagai prosedur standar dalam pembentukan model runtun waktu linear.
Beberapa literatur yang banyak membahas model ARIMA ini dapat dilihat pada
Cryer (1986), Wei (1990) dan Box dkk. (1994). Selain itu, sifat-sifat yang
berkaitan dengan teori statistik untuk model ARIMA telah banyak dianalisis dan
dikembangkan oleh beberapa peneliti, antara lain Brockwell dan Davis (1991).
Dalam perkembangan analisis runtun waktu, telah banyak diketahui bahwa
pada banyak fenomena yang menarik dan sederhana seringkali merupakan
fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat
Ringkasan 133
ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang
linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut, dan sebagai
konsekuensinya, model-model runtun waktu yang nonlinear telah menjadi fokus
perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.
Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada
beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini
dapat ditemukan antara lain di Tong (1990), Priestley (1991), Lee dkk. (1993),
serta Granger dan Terasvirta (1993).

3. FEEDFORWARD NEURAL NETWORKS
Multi Layer Perceptrons (MLP) yang juga dikenal dengan feedforward
atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang
secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau
rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu adalah
berdasarkan pada arsitektur MLP atau FFNN.
MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-
fungsi yang nonlinear. Secara umum, model ini bekerja dengan menerima suatu
vektor dari input-input X dan kemudian menghitung suatu respon atau output
) (X Y dengan memproses (propagating) X melalui elemen-elemen proses yang
saling terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan
data, X, mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam
tiap-tiap lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh
elemen-elemen proses dan kemudian diproses maju ke lapis berikutnya.
Akhirnya, nilai-nilai output ) (X Y , yang dapat berupa nilai-nilai skalar atau vektor,
dihitung pada lapis output.
Gambar 3.1 adalah suatu contoh dari bentuk khusus MLP dengan satu
lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis
tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu
1
X ,
2
X dan
3
X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi , dan satu
unit output dengan fungsi aktifasi linear.
Ringkasan 134


Gambar 3.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input,
empat unit neuron di lapis tersembunyi, dan satu unit output
dengan fungsi aktifasi linear pada lapis output.

Dalam arsitektur ini, nilai-nilai respon atau output ) (X Y dihitung dengan


+ +
H
j
I
i
i ji j j
Y
1 1
0 0
) ( ) ( X X (3.1)
dengan ) ,..., , ,..., , (
10 1 0 HI H
adalah besaran-besaran bobot atau para-
meter pada MLP. Bentuk nonlinear fungsi ) (X Y terjadi melalui suatu fungsi
yang disebut fungsi aktifasi , yang biasanya fungsi yang halus atau smooth
seperti fungsi logistik sigmoid
1
)) exp( 1 ( ) (

+ Z Z . (3.2)
Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear pada
lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini dimotivasi
dari fakta yang menyatakan bahwa bentuk ini dapat memberikan pendekatan
sebarang yang akurat pada sebarang fungsi dalam berbagai ruang fungsi norm
jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989; Funahashi,
1989; Hornik dkk., 1989).
Ringkasan 135
Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan
dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis
tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon
atau target,
i t
Y

, dalam himpunan dari input. Hal ini dapat diperoleh dengan
mengganti ) ,..., (
1

p t t
Y Y X dalam persamaan (3.1). Bentuk ini selanjutnya
dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik
untuk 3 lag sebagai input dapat dilihat seperti Gambar 3.2. Secara umum bentuk
arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana
bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian
masa lalu ) ,..., (
1

p t t
Y Y ke kejadian masa sekarang
t
Y adalah nonlinear,
sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali
model AR-NN ini disebut juga dengan model autoregresi yang nonlinear
(Faraway dan Chatfield, 1998).




Gambar 3.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel
dependen sebagai input (
3 2 1
, ,
t t t
Y Y Y ), empat unit neuron
di lapis tersembunyi, dan satu unit output (
t
Y ) dengan fungsi
aktifasi linear pada output lapis.

Ringkasan 136
3.1. Algoritma Backpropagation
Ripley (1996) menyatakan bahwa keberadaan suatu pendekatan dari suatu
fungsi adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan
pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang
neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan
NN diawali oleh pembelajaran RumelhartMcClelland (1986) yaitu untuk
melakukan fitting terhadap parameter-parameter fungsi dengan metode least
squares. Misalkan kita mempunyai beberapa pasang sampel input dan target
) , (
) ( ) ( k k
y x , dan output dari network adalah ) , ( w x y f . Maka, vektor parameter
w dipilih dengan cara meminimumkan


n
k
k k
x f y Q
1
2
) ( ) (
)] ; ( [ ) ( w w (3.3)
seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber
dan Wild, 1989).
Gradient descent merupakan salah satu dari kelompok metode optimisasi
yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari
fungsi kesalahan (error) yaitu
) ( ) ( ) ( w w w w w Q Q Q
T
+ + . (3.4)
Bobot-bobot diupdate melalui
0 ), ( > w w Q , (3.5)
dengan adalah suatu koefisien pembelajaran (learning rate).
Suhartono dkk. (2005d) telah menurunkan suatu corollary yang merupakan
modifikasi algoritma backpropagation dengan metode gradient descent dari
Moller (1997). Corollary ini adalah khusus untuk mendapatkan bobot-bobot pada
FFNN yang digunakan untuk peramalan runtun waktu univariat seperti pada
Gambar 3.2.



Ringkasan 137
3.2. Sifat-sifat Asimtotis Estimator FFNN
Sifat-sifat asimtotis dari estimator backpropagation dalam FFNN dengan
satu lapis tersembunyi telah banyak dibahas secara detail oleh White (1989a,
1989b). Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari
pembelajaran network melalui backpropagatian adalah menemukan suatu
penyelesaian
*
w pada suatu permasalahan optimisasi ) ( min arg w Q
W w
yaitu
( ) 2 / )) , ( [( ) ( min arg
2 *
w w w X f Y E Q
W w

, (3.6)
dengan
*
w adalah indeks dari bobot network yang optimal.
Dengan penalti kuadrat error, pembelajaran pada network harus sampai
pada
*
w , yang menyelesaikan
( ) 2 / )] | ( ([ ] 2 / )) , ( [( min
2 2
X Y E Y E X f Y E
W w

w
) ) 2 / )] , ( ) | ( ([
2
w X f X Y E E + . (3.7)
Menemukan
*
w merupakan permasalahan yang secara tepat sama dengan
mendapatkan parameter-parameter dari suatu pendekatan least squares yang
optimal untuk ) | ( X Y E , ekspektasi bersyarat dari Y diberikan X .
Secara khusus, jika diberikan pasangan input dan target ) , (
t t
X Y dengan
n t , , 2 , 1 K , yang diambil secara random dari suatu populasi tertentu, maka
n
w
adalah estimator least squares yang nonlinear pada permasalahan optimisasi


n
t
t t n
W w
X f Y n Q
1
2 1
2 / )) , ( ( ) ( min arg w w . (3.8)
Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap
dalam literatur-literatur statistik dan ekonometrika.
White (1989b) telah memberikan suatu pernyataan formal tentang syarat
cukup untuk menjamin konvergensi dari estimator backpropagation
n
w , seperti
yang dinyatakan dalam teorema berikut ini.
Teorema 3.1. (White, 1989b) Misalkan ) , F , ( P adalah suatu ruang probabilitas
yang lengkap yang didefinisikan pada suatu barisan dari variabel random yang
Ringkasan 138
IID , : ( } {
v
t t
Z ) , 2 , 1 K t , v } , 2 , 1 { K . Misalkan W l
v
:
adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-
himpunan kompak dari
s
, s , ) , ( w l adalah ukuran-
v
(dengan
v
adalah
suatu -field Borel dengan himpunan-himpunan terbuka dari
v
), dan untuk
setiap z dalam
v
, ) , ( z l adalah kontinyu pada W. Anggap selanjutnya bahwa
ada
+

v
d : sedemikian hingga untuk semua w dalam W, ) ( | ) , ( | z d z l w
dan < )) ( (
t
Z d E (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat
diintegralkan).
Maka untuk setiap K , 2 , 1 n ada suatu penyelesaian
n
w untuk per-
masalahan


n
t t n W w
l n Q
1
1
) , ( ) (

min w Z w dan , . .
*
P s a
n
W w dengan
) ( ) ( : {
* * *
w w W w W Q Q untuk semua } W w , )) , ( ( ) ( w Z w
t
l E Q .

3.3. Sifat Normalitas Asimtotis Estimator FFNN
Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis) dari
n
w adalah konsep-konsep tentang konvergensi dalam distribusi. Distribusi
asimtotis dari
n
w tergantung pada sifat dasar dari
*
W . Secara umum
*
W
mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian datar yang terisolasi.
Jika konvergensi ke suatu bagian datar terjadi, maka bobot-bobot taksisran
n
w
mempunyai suatu distribusi asimtotis yang dapat dianalisis dengan
menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi secara
parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian gabungan
asimtotis atau limiting mixed Gaussian (LMG) seperti yang dikenalkan oleh
Phillips. Ketika
*
w adalah unik secara lokal, model dikatakan teridentifikasi
secara lokal dan bobot-bobot taksiran
n
w yang konvergen ke
*
w mempunyai
distribusi normal multivariat asimtotis.
White (1989b) telah memberikan suatu kondisi yang memastikan bahwa
n
w mempunyai distribusi normal multivariat asimtotis, seperti yang dinyatakan
dalam teorema berikut ini.
Ringkasan 139
Teorema 3.2. (White, 1989b) Misalkan ) , F , ( P , } {
t
Z , W dan l adalah seperti
dalam Teorema 3.1, dan anggap bahwa P s a
n
. .
*
w w dengan suatu elemen
terisolasi pada
*
W bagian dalam (interior) untuk W.
Anggap sebagai tambahan bahwa untuk setiap z dalam
v
, ) , ( z l adalah
dapat diturunkan secara kontinyu sampai orde 2 pada

W; bahwa
< )) , ( ) , ( (
* *
w w
t t
Z l Z l E ; bahwa setiap elemen dari l
2
adalah
terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa
)) , ( (
* 2 *
w A
t
Z l E dan ) ) , ( ) , ( (
* * *
w w B
t t
Z l Z l E matriks-matriks
nonsingular berukuran ) ( s s , dengan dan
2
adalah notasi dari gradien
) 1 ( s dan operator-operator Hessian ) ( s s terhadap w.
Maka ) , ( ) (
* *
C 0 w w
d
n
n , dengan
1 1 *
A B A C . Jika
sebagai tambahan, setiap elemen dari l l adalah terdominasi pada W oleh
suatu fungsi yang dapat diintegralkan, maka P s a
n


. .

C C , dengan
1 1

n n n n
A B A C , dan

n
Z l
n
t n t
n

1
2
) , (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B .

3.4. Testing Hipotesa untuk Parameter Model Neural Networks
Penggunaan satu tahap Nonlinear Least Squares (NLS) Newton-Raphson
dari estimator backpropagation menghasilkan suatu estimator yang ekuivalen
secara asimtotis dengan NLS. Suatu kenyataan bahwa

C F semidefinit positif
adalah suatu alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran
konsolidasi, karena
n
w mempunyai presisi asimtotis yang sama atau lebih besar
daripada
n
w
~
. Dengan demikian uji hipotesa berdasarkan
n
w adalah lebih
bermanfaat dari pada berdasarkan
n
w
~
.
Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaiknya
dilakukan dengan menggunakan
n
w . Suatu uji tentang relevansi (signifikansi)
dari input yang hipotesisnya dapat dinyatakan dengan 0 Sw

:
0
H melawan
0 Sw

:
1
H , dapat dilakukan berdasarkan pada versi-versi statistik Wald,
Lagrange multiplier, dan Likelihood ratio.
Ringkasan 140
Berikut ini adalah hasil konstruksi teorema yang berkaitan dengan statistik
Wald yang digunakan untuk pengujian hipotesis pada parameter model NN.
Teorema 3.3. Misalkan kondisi-kondisi pada Teorema 3.2 di atas terpenuhi,
yaitu
(i) ) , ( ) (
2 / 1
I 0 w w C

d
n
n , dengan
'
1 1
A B A C

, dan
1

C
adalah ) 1 ( O .
(ii) Ada suatu matriks semidifinit positif dan simetris
n
B

sedemikian hingga

B B
n

0
p
. Maka

C C
n

0
p
, dengan
1 1

n n n n
A B A C ,

n
, Z l
n
t n t
n

1
2
) (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B ,
Dan, misalkan k q ) ( rank S . Maka dibawah s H

Sw :
0
,
(i) ) , ( ) (
2 / 1
I 0 s w S
d
n n
n , dengan

'
n
S SC '
'
S A B SA
1 1
.
(ii) Suatu statistik Wald,
2 1
) (

) (
q
d
n n n n
n W

s w S s w S ,
dengan '
n n
S C S

.

Dengan demikian, suatu uji tentang relevansi (signifikansi) dari input yang
hipotesisnya dapat dinyatakan dengan 0 Sw

:
0
H melawan 0 Sw

:
1
H ,
dapat dilakukan dengan mengaplikasikan Teorema 3.3 ini. Sebagai contoh,
statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu
n n n
n W w S S SC S w ) (

1
,
dengan

C seperti yang dijelaskan sebelumnya



4. FFNN UNTUK PERAMALAN RUNTUN WAKTU
Peramalan runtun waktu merupakan salah satu bidang utama dalam
aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model
runtun waktu yang nonlinear. Jika diberikan
t
adalah suatu himpunan informasi
Ringkasan 141
yang didefinisikan
t
} 0 , ; 0 , { >

i X j Y
i t j t
, n t , , 2 , 1 K , (4.1)
yang menyatakan semua variabel lag
t
Y dan suatu vektor dari variabel eksogen
t
X , maka proses pemodelan runtun waktu secara umum bertujuan
mendapatkan suatu pendekatan yang baik untuk ) (
t
I f sedemikan hingga
) ( ] | [
t t t
I f Y E . (4.2)
Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi
pemodelan yang banyak dilakukan pada kelompok model runtun waktu
nonlinear. Secara ringkas tahapan tersebut adalah :
(i). Uji linearitas
t
Y dengan menggunakan informasi
t

Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak
ada satu tes yang mampu melakukan semua kemungkinan nonlinear
tersebut, sehingga beberapa tes mungkin diperlukan.
(ii). Jika linearitas ditolak, gunakan beberapa alternatif model nonlinear
parametrik dan/atau model-model nonparametrik.
Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk
tentang model nonlinear yang sebaiknya digunakan.
(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)
dan dibandingkan pada data validasi (out-of-sample).
Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu
model tunggal terbaik yang dibutuhkan, maka model yang memberikan
hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi
kembali pada semua data yang ada.

Bagian ini terdiri dari hasil-hasil kajian teori dan terapan tentang uji
nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan
FFNN untuk peramalan runtun waktu. Secara lengkap hasil kajian tentang uji
nonlinearitas dapat dilihat pada Suhartono dan Subanar (2004), serta Subanar
dan Suhartono (2005, 2006a).
Ringkasan 142
4.1. Inferensia Statistik dari Kontribusi Penambahan R
2

Suhartono dkk. (2006a) memperkenalkan suatu prosedur baru yang
berdasarkan pada inferensia statistik dari kontribusi penambahan. Statistik uji ini
dikonstruksi seperti pada model linear yang dikenal dengan uji signifikansi
bertahap. Uji ini melalui tiga tahap utama, yaitu Model Tereduksi (Reduced
Model), Model Lengkap (Full Model), dan penentuan Uji Statistik. Berikut ini
adalah hasil konstruksi teorema berkaitan dengan uji R
2
incremental
.
Teorema 4.2.3. Jika diberikan suatu Model Tereduksi (Reduced Model) yang
secara umum dapat ditulis dalam bentuk
) ( ) (
) , (
R
t
R
n t t
X f Y + w , (4.3)
dengan
R
l adalah banyaknya parameter yang diestimasi. Dan jika diberikan
suatu Model Lengkap (Full Model) yang lebih kompleks dibanding Model
Tereduksi, misalkan adalah
) ( ) (
) , (
F
t
F
n t t
X f Y + w , (4.4)
dengan
F
l adalah banyaknya parameter yang diestimasi, dan
R F
l l > . Maka uji
di bawah 0 w
+
:
0
H , atau uji terhadap nilai-nilai parameter (bobot) tambahan
dalam model lengkap adalah sama dengan nol, dapat dikonstruksi melalui uji F ,
yaitu
]) [ ], [ (
) (
) ( ) (
2 1
~
) /(
) /( ) (
F R F
l n v l l v
F F
R F F R
F
l n SSE
l l SSE SSE


. (4.5)
Statistik uji F ini dapat pula dinyatakan dalam bentuk
) ( ) (
) ( ) ( ) ( ) (
/
) /( ) (
F F
F R F R
df SSE
df df SSE SSE
F

, (4.6)
atau

) (
2
) (
) ( ) (
2
l incrementa
) 1 (
) (
F F
F R
df R
df df R
F

, (4.7)
dengan
2
) (
2
) (
2
l incrementa R F
R R R ,
) ( R
df
R
l n adalah derajat bebas Reduced
Model, dan
) (F
df
F
l n adalah derajat bebas Full Model.
Ringkasan 143
4.2. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-linearitas,
Inferensia Statistik R
2
incremental
dan Uji Wald
Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi
pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji
nonlinearitas, inferensia statistik kontribusi penambahan R
2
incremental
, dan uji Wald.
Gambar 4.1 dan 4.2 adalah bagan yang menunjukkan dua prosedur (algoritma)
baru yang diperkenalkan sebagai prosedur pembentukan model FFNN untuk
pemodelan runtun waktu.
Prosedur pertama pada Gambar 4.1 adalah prosedur yang fokus pada
penggunaan inferensia statistik kontribusi penambahan R
2
incremental
dalam skema
forward, yang dimulai dengan penentuan banyaknya unit di lapis tersembunyi
yang optimal dan dilanjutkan dengan pemilihan unit input yang optimal.
Sedangkan prosedur kedua pada Gambar 4.2 merupakan prosedur yang
menggunakan kombinasi inferensia statistik kontribusi penambahan R
2
incremental

dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi yang
optimal dengan uji Wald dalam skema backward untuk pemilihan unit input yang
optimal.

5. HASIL EMPIRIS
Ada empat macam kajian empiris utama yang telah dilakukan dalam
penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F
untuk inferensia R
2
incremental
dan uji Wald secara empiris dapat bekerja dengan
baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu
univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk
runtun waktu univariat yang nonlinear. Hasil-hasil dari kajian ini secara umum
menunjukkan bahwa dua prosedur baru yang diusulkan dapat bekerja secara
baik dalam penentuan arsitektur FFNN yang terbaik. Secara lengkap hasil kajian
ini dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan
Suhartono (2006b).
Ringkasan 144
Mulai



Aplikasikan uji nonlinearitas
untuk deteksi bentuk hubungan
nonlinear pada runtun waktu



Apakah uji nonlinearitas
menunjukkan adanya bentuk
hubungan nonlinear ?





Spesifikasikan model FFNN
dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi
sebagai tahap awal penentuan banyaknya
unit neuron yang optimal



Apakah penambahan 1 unit
neuron di lapis tersembunyi memberikan
R
2
incremental
yang signifikan ?





Spesifikasikan model FFNN dengan
banyaknya unit neuron TETAP dari hasil
sebelumnya, dimulai dengan 1
variabel lag input yang mempunyai
nilai R
2
terbesar.



Apakah penambahan
1 variabel lag input memberikan
R
2
incremental
yang signifikan ?





Selesai

Gambar 4.1. Prosedur pembentukan model melalui inferensia R
2
incremental
YA
TIDAK
TIDAK
Aplikasikan
model ARIMA
TIDAK
Masukkan 1
tambahan unit
neuron
YA
Masukkan 1
tambahan lag
yg signifikan
YA
Ringkasan 145
Mulai



Aplikasikan uji nonlinearitas
untuk deteksi bentuk hubungan
nonlinear pada runtun waktu



Apakah uji nonlinearitas
menunjukkan adanya bentuk
hubungan nonlinear ?





Spesifikasikan model FFNN
dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi
sebagai tahap awal penentuan banyaknya
unit neuron yang optimal



Apakah penambahan 1 unit
neuron di lapis tersembunyi memberikan
R
2
incremental
yang signifikan ?





Spesifikasikan model FFNN dengan
banyaknya unit neuron TETAP dari hasil
sebelumnya, gunakan banyaknya yang
relatif cukup banyak untuk variabel
lag input yang ada pada model.



Melalui uji Wald,
Apakah terdapat variabel lag input
yang tidak signifikan?





Selesai
Gambar 4.2. Prosedur kombinasi inferensia R
2
incremental
dan uji Wald
YA
TIDAK
TIDAK
Aplikasikan
model ARIMA
TIDAK
Masukkan 1
tambahan unit
neuron
YA
Eliminasi lag
variabel yg
tdk signifikan.
YA
Ringkasan 146
Kajian empiris yang kedua difokuskan pada perbandingan ketepatan
ramalan antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus
real utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia
dan data jumlah penumpang pesawat udara internasional yang dikenal dengan
Airline Data. Secara umum, hasil dari kajian empiris ini menunjukkan bahwa
model yang kompleks tidak selalu memberikan hasil ramalan yang lebih baik
dibanding model yang lebih sederhana. Hasil lengkap dari kajian kedua ini dapat
dilihat pada Suhartono (2005), Suhartono dkk. (2005a, 2005c, 2006c).
Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode
baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang
mengandung tren dan musiman. Kajian ini memberikan peluang untuk
pembentukan model hybrid yang merupakan kombinasi dari model-model runtun
waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian
kedua, yaitu Airline Data. Hasil lengkap dari kajian ini dapat dilihat pada
Suhartono dkk. (2005b), serta Suhartono dan Subanar (2006a).
Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk
peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial
runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-
time, yaitu evaluasi terhadap kondisi stasioneritas model GSTAR(1
1
) dan metode
penentuan bobot spasial (lokasi). Selain itu, diberikan pula hasil-hasil
perbandingan ketepatan ramalan antara FFNN dengan model-model runtun
waktu multivariat. Hasil dari kajian ini dapat dilihat pada Suhartono dan Subanar
(2006b, 2007).

6. KESIMPULAN DAN MASALAH TERBUKA
Dengan menggunakan beberapa teorema asimtotis dan konvergensi, dapat
diturunkan sifat asimtotits estimator yang mengikuti distribusi normal multivariat
asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan untuk konstruksi uji
statistik Wald yang dapat diimplementasikan untuk inferensia statistik terhadap
estimator-estimator model FFNN. Suatu uji statistik baru melalui besaran
Ringkasan 147
kontribusi penambahan atau R
2
incremental
telah dapat dikonstruksi. Uji ini
dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model Tereduksi,
model Lengkap, dan penentuan uji statistik F .
Kontribusi utama dari hasil penelitian ini adalah diperolehnya dua prosedur
baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan
runtun waktu. Prosedur pertama mengimpementasikan uji statistik F pada
R
2
incremental
dalam skema forward yang dimulai dengan penentuan banyaknya unit
di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.
Prosedur kedua menggunakan kombinasi antara uji statistik F pada R
2
incremental

dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi
dengan uji Wald dalam skema backward untuk penentuan variabel input yang
optimal.
Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja
dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk
peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan
ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang
lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan
hasil yang terbaik. Selain itu, kajian empiris tentang efek dari pemrosesan awal
data juga telah dilakukan dan menunjukkan bahwa pemilihan metode
pemrosesan awal data yang tepat dapat secara signifikan meningkatkan
ketepatan ramalan FFNN.
Pada akhirnya, hasil kajian tentang model GSTAR dikaitkan dengan
aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan
baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk
penentuan bobot lokasi yang optimal pada model GSTAR(1
1
). Metode baru ini
dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik
dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti
sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas
parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan
dengan teorema stasioneritas parameter model GSTAR(1
1
) yang dikemukakan
oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan
Ringkasan 148
runtun waktu multivariat yang dikembangkan dari model GSTAR (Generalized
Space-Time Autoregressive) dan VAR (Vector Autoregressive) pada data
produksi minyak, terbukti memberikan hasil ramalan yang lebih baik dibanding
model GSTAR dan VAR.
Berdasarkan pembahasan pada penelitian ini diperoleh beberapa
permasalahan terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :
1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,
termasuk data spasial runtun waktu. Uji ini akan memberikan argumen
yang fundamental terhadap kelayakan pemakaian suatu model nonlinear,
khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun
waktu.
2. Pengembangan prosedur pembentukan model pada NN dengan meng-
kombinasikan R
2
incremental
dan uji Wald untuk memutus koneksi input ke unit
neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-
sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada
aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.
3. Pengembangan NN untuk peramalan runtun waktu pada data yang
nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak
kontinyu dan tidak berdistribusi Normal. Hal utama yang mendasari
pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada
peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat
kualitatif.
4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan
beberapa model atau metode analisis data lainnya, misalnya Wavelet NN
ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.
Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini
merupakan dasar utama pengembangan suatu model hybrid yang
mengkombinasikan NN dengan metode yang lainnya.

149
SUMMARY

FEEDFORWARD NEURAL NETWORKS
FOR TIME SERIES MODELING

by

Suhartono

1. INTRODUCTION
During the last few years, modeling to explain nonlinear relationship
between variables and some procedures to detect this nonlinear relationship
have grown in a spectacular way and received a great deal of attention. An
overview and further discussion on the subject can be found in Granger and
Terasvirta (1993). This fact also happens in field of statistical modeling,
particularly in time series modeling and econometrics. Due to computational
advances and increased computational power, nonparametric models that do not
make assumptions about the parametric form of the functional relationship
between the variables to be modeled have become more easily applicable.
Neural Networks (NN) model is a prominent example of such a flexible
functional form. The use of the NN model in applied work is generally motivated
by a mathematical result stating that under mild regularity conditions, a relatively
simple NN model is capable of approximating any Borel-measureable function to
any given degree of accuracy; for example see Cybenko (1989), Funahashi
(1989), Hornik, Stinchombe, and White (1989, 1990) or White (1990).
Todays research is largely motivated by the possibility of using NN model
as an instrument to solve a wide variety of application problems such as pattern
recognition, signal processing, process control, and time series forecasting. Sarle
(1994) stated that NN are used in three main ways, i.e. as models of biological
nervous systems and intelligence, as real-time adaptive signal processors or
controllers implemented in hardware for applications such as robots, and as data
analytic methods.
Multilayer perceptron (MLP), also known as feed forward neural networks
(FFNN), is probably the most commonly used NN architecture in engineering
Summary 150
application. Typically, applications of NN model for time series modeling and
signal processing are based on the FFNN architecture. Some references that
contain general concept and form of FFNN model can be found at Bishop (1995),
Ripley (1996) and Fine (1999). FFNN model can be seen as nonlinear regression
and discriminant models in term of statistical modeling. The relationship between
NN and statistical models can be found in Cheng and Titterington (1994), Kuan
and White (1994), Ripley (1993, 1994), Sarle (1994), and some articles on
Cherkassky et al. (1994).
In the application of FFNN, it contains limited number of parameters
(weights). How to find the best FFNN model, that is, how to find an accurate
combination between number of input variables and unit nodes in hidden layer
(imply the optimal number of parameters), is a central topic on the some NN
literatures that discussed on many articles and books, see for example Bishop
(1995), Ripley (1996), Fine (1999), Haykin (1999), and Reed and Marks II (1999).
In general, there are two procedures usually used to find the best FFNN
model (the optimal architecture), those are general-to-specific or top-down
and specific-to-general or bottom-up procedures. Top-down procedure is
started from complex model and then applies an algorithm to reduce number of
parameters (number of input variables and unit nodes in hidden layer) by using
some stopping criteria, whereas bottom-up procedure works from a simple
model. The first procedure in some literatures is also known as pruning (Reed,
1993; Reed and Marks II, 1999), or backward method in statistical modeling.
The second procedure is also known as constructive learning and one of the
most popular is cascade correlation (Fahlman and Lebiere, 1990; Littmann and
Ritter, 1996; Prechlet, 1997), and it can be seen as forward method in statistical
modeling.
Kaashoek and Van Dijk (2001) introduced a pruning procedure by
implementing three kinds of methods to find the best FFNN model; those are
incremental contribution (R
2
incremental
), principal component analysis, and graphical
analysis. Whereas, Swanson and White (1995, 1997a, 1997b) applied a criteria
of model selection, SBIC or Schwarz Bayesian Information Criteria, on bottom-
up procedure to increase number of unit nodes in hidden layer and input
variables until finding the best FFNN model.
Summary 151
In recent development, procedure of inference statistics was also applied to
determine the best FFNN model. In this case, the concept of testing hypothesis,
parameter distribution and the use of some criteria for model selection are
applied to find the optimal FFNN model. Terasvirta and Lin (1993) were among
the first researchers who applied this procedure to find the optimal number of unit
nodes in hidden layer on FFNN model with single hidden layer. Some latest
articles about FFNN model building by using inference statistics can be seen in
Anders and Korn (1999) and Medeiros et al. (2002).
Time series forecasting has been an important application of NN from the
very beginning. Lapedes and Farbes (1987) were among the first researchers
who used a NN for time series processing. They explored the ability of FFNN to
forecast a nonlinear computer generated signal; that is the Mackey-Glass
differential equation. Later on, NN have also been used to predict observed real
world time series (see, for example, de Groot and Wurtz, 1991; Weigend and
Gershenfeld, 1993; Swanson and White, 1995; Weigend, 1996; Faraway and
Chatfield, 1998; Lisi and Schiav, 1999; Motiwalla and Wahab, 2000; Yao and
Tan, 2000; Leung et al., 2000; Kaashoek and Van Dijk, 2001, 2002; Crone, 2003,
2004; also Fildes and Liao, 2004). In general, the main focus of these researches
is how to find the best FFNN model for time series forecasting. Some issues that
gained much attention in the NN community until now are:
how to identify the appropriate input variables for FFNN model?
how to determine the appropriate input variables for FFNN model?
how to determine the optimal number of nodes in hidden layer for FFNN
model?
what is the appropriate criteria for evaluating and selecting the best FFNN
model?
what is the appropriate method for data preprocessing in FFNN model?

There are some procedures for NN model building that be proposed by
many NN researchers. But, there is no procedure that be accepted until now as
standard procedure in the NN community. Hence, one of the main problems in
NN model building as statistical modeling particularly for time series model is no
standard procedure to find the best NN model for time series, i.e. start on
Summary 152
identification step, parameter estimation and testing hypothesis, and check
diagnostic for validating model goodness of fit based on certain criterion or
statistic test.
This research focuses on the development of NN model building procedure
that can be used as a standard procedure. There are many main problems that
will be studied further to build a standard procedure, i.e.
(1). Developing of the appropriate test statistic or criterion to validate goodness
of fit of FFNN that be applied for time series modeling.
(2). Investigation and developing of the appropriate FFNN model building
procedure applied for time series modeling by implementing asymptotic
properties of the estimators and statistics criterion.

2. TIME SERIES ANALYSIS
Chatfield (2001) stated that time series analysis in general has several
objectives, i.e. forecasting, modeling, and controlling. Forecasting deals with the
issue of constructing models and methods that can be used to produce accurate
short-term predictions. The aim of modeling is to build a statistical model that
adequately represents the long-term behaviour of a time series. These goals are
not necessarily identical. While the former frequently leads to a black box model
that produces predictions, the objective of the latter is more towards finding the
model that has generated the data. Finally, controlling purpose is frequently used
in engineering field, particularly signal processing.
Statistical modeling of time series can be traced back to Yule (1927), who
initiated the linear autoregressive (AR) model to forecast the annual number of
sunspots. Since then a large amount of literature has been published in the field
of statistical time series analysis. Until 1980 most research focused on linear time
series models, particularly on the class of linear autoregressive integrated
moving average (ARIMA) models.
Brockwell and Davis (1991) defined that the process , {
t
Y } , 2 , 1 , 0 K t t t is
said to be an ARMA(p,q) process if } {
t
Y is stationary and if fore every t ,
q t q t t p t p t t
Y Y Y

+ + + L L
1 1 1 1
, (2.1)
Summary 153
where ) , 0 ( WN ~ } {
2

t
. We say that } {
t
Y is an ARMA(p,q) process with mean
if } {
t
Y is an ARMA(p,q) process. Equation (2.1) can be written
symbolically in the more compact form, i.e.
t t
B Y B ) ( ) ( , (2.2)
where and are the p
th
and q
th
degree polynomials
p
p
z z z L
1
1 ) ( (2.3)
and
q
q
z z z + + + L
1
1 ) ( (2.4)
and B is the backward shift operator defined by
j t t
j
Y Y B

, K , 2 , 1 , 0 t t j . (2.5)
Box and Jenkins in 1976 developed a complete fitting procedure based on
the ARIMA methodology, which is today a standard for linear time series
modeling. ARIMA models have been rigorously analyzed (see Cryer, 1986; Wei,
1990; Box et al., 1994) and a discussion of their statistical properties can be
found, e.g., in Brockwell and Davis (1991).
In the developing of time series analysis, it is a well known fact that many
interesting and sometimes very simple phenomena are nonlinear in the sense
that the relationship between the past and the present is nonlinear. Hence, the
class of linear time series models is inadequate in that case and, in
consequence, nonlinear time series models have received a great deal of
attention during the last few years. Various particular forms of nonlinear models
have been developed and applied to several examples. An overview and further
discussion on the subject can be found, e.g., in Tong (1990), Priestley (1991),
Lee et al. (1993), also Granger and Terasvirta (1993).

3. FEEDFORWARD NEURAL NETWORKS
Multi Layer Perceptrons (MLP), also known as feed forward neural network
(FFNN), is the most commonly used NN architecture in engineering applications.
Naturally, applications of NN for time series modeling are based on the MLP or
FFNN architecture.
Summary 154
MLP can be seen as a flexible class of nonlinear functions. In general, this
model work by receiving a vector of inputs X and compute a response or output
) (X Y by propagating X through the interconnected processing elements. The
processing elements are arranged in layers and the data, X, flows from each
layer to the successive one. Within each layer, the inputs to the layer are
nonlinearly transformed by the processing elements and propagated to the next
layer. Finally, at the output layer ) (X Y , which can be scalar or vector valued, is
computed.
Figure 3.1 is an example of typical MLP with one hidden layer that more
well known as FFNN with single hidden layer. In this example, FFNN contains
three input units, i.e.
1
X ,
2
X ,
3
X , four hidden units with activation function ,
and one output unit with linear activation function.


Figure 3.1. MLP architecture of a single hidden layer with three input
units, four hidden units, and one output unit.

In this architecture, the response value ) (X Y is computed as


+ +
H
j
I
i
i ji j j
Y
1 1
0 0
) ( ) ( X X (3.1)
Summary 155
where ) ,..., , ,..., , (
10 1 0 HI H
are the weights or parameters of the MLP. The
nonlinearity enters into the function ) (X Y through the so called activation
function , usually a smooth threshold function such as the logistic sigmoid
1
)) exp( 1 ( ) (

+ Z Z . (3.2)
The motivation to consider this type of MLP, i.e. with one hidden layer and no
activation function at the output, stems from the fact that it can provide arbitrarily
accurate approximations to arbitrary functions in a variety of normed function
spaces if the dimension of the weight space is sufficiently large (Cybenko, 1989;
Funahashi, 1989; Hornik et al., 1989).



Figure 3.2. AR-NN architecture that contains single hidden layer, three
lagged dependent variables as inputs (
3 2 1
, ,
t t t
Y Y Y ), four
units in hidden layer, and one output unit (
t
Y ), with linear
activation function on the output layer.

The application of NN for time series forecasting requires explicit treatment
of the dynamics. MLP can accommodate the dynamics by including lagged (past)
target variables,
i t
Y

, in the set of inputs. This can be achieved by setting
) ,..., (
1

p t t
Y Y X in equation (3.1). The resulting MLP output is known as
Autoregressive Neural Network (ARNN) model and for 3 lags are graphically
Summary 156
illustrated in Figure 3.2. In general, architecture of this model is the same with
ARIMA(p,0,0) model, where the difference is about function that transfer the past
) ,..., (
1

p t t
Y Y to the present
t
Y that is a nonlinear form. This AR-NN model is
frequently said to a nonlinear autoregressive model (Faraway dan Chatfield,
1998).

3.1. Backpropagation Algorithm
Ripley (1996) stated that the existence of the function approximation was
not useful if there was not known the way to find this function. This condition
affected many researches about NN for many years. The main idea of the
approximation by using NN is started by Rumelhart-McClelland (1986) learning
for fitting parameters by employing least squares method. The training of the NN
involves adjusting the weights of the network such that the output generated by
the network for the given input
( ) k
x is as close to ) , ( w x y f as possible.
Formally, this can be formulated as the optimization problem by finding weights,
( , )
ij j
w , to minimize


n
k
k k
x f y Q
1
2
) ( ) (
)] ; ( [ ) ( w w (3.3)
as done in nonlinear regression (Bates dan Watts, 1998; Seber dan Wild, 1989).
Gradient descent is known as one of the oldest optimization methods. This
method is based on a linear approximation of the error function given by
) ( ) ( ) ( w w w w w Q Q Q
T
+ + . (3.4)
The weights update is
0 ), ( > w w Q , (3.5)
where is learning rate. Suhartono et al. (2005d) derived a corollary about back-
propagation algorithm to find the optimal weights of FFNN for time series
forecasting as illustrated in Figure 3.2.

3.2. Asymptotic Properties of FFNN Estimator
The large-sample properties of learning backpropagation in single hidden
layer feedforward networks have been studied further by White (1989a, 1989b).
Summary 157
The aim of learning networks by using backpropagation is to find the solution
*
w
on the optimization problem ) ( min arg w Q
W w
, i.e.
( ) 2 / )) , ( [( ) ( min arg
2 *
w w w X f Y E Q
W w

, (3.6)
where
*
w is index of an optimal networks.
With squared error penalty, learning must arrive at
*
w , which solve
( ) 2 / )] | ( ([ ] 2 / )) , ( [( min
2 2
X Y E Y E X f Y E
W w

w
) ) 2 / )] , ( ) | ( ([
2
w X f X Y E E + . (3.7)
Finding
*
w is precisely the problem of finding the parameters of an optimal least
squares approximation to ) | ( X Y E , the conditional expectation of Y given X .
Specifically, given target/input pairs ) , (
t t
X Y with n t , , 2 , 1 K , randomly
drawn from the operating environment, then
n
w is the nonlinear least squares
estimator, i.e.


n
t
t t n
W w
X f Y n Q
1
2 1
2 / )) , ( ( ) ( min arg w w . (3.8)
Nonlinear regression is an established method that has been completely
analyzed in statistics and econometrics literatures.
White (1989b) provided a formal statement of condition sufficient to
guarantee convergence of
n
w , as stated in the following theorem.
Theorem 3.1. (White, 1989b). Let ) , F , ( P be a complete probability space on
which is defined the sequence of independent identically distributed random
variables , : ( } {
v
t t
Z ) , 2 , 1 K t , v } , 2 , 1 { K . Let W l
v
:
be a function such that for each w in W , a compact subset of
s
, s , ) , ( w l
is measurable-
v
(where
v
is the Borel -field generated by the open sets of
v
), and for each z in
v
, ) , ( z l is continuous on W. Suppose further that
there exists
+

v
d : such that for all w in W, ) ( | ) , ( | z d z l w and
< )) ( (
t
Z d E (i.e., l is dominated on W by an integrable function).
Then for each K , 2 , 1 n there exists a solution
n
w to the problem


n
t t n W w
l n Q
1
1
) , ( ) (

min w Z w and , . .
*
P s a
n
W w where
* *
{w W
) ( ) ( :
*
w w W Q Q for all } W w , )) , ( ( ) ( w Z w
t
l E Q .

Summary 158
3.3. Asymptotic Normality of FFNN Estimator
The appropriate formal concept for studying the limiting distribution of
n
w is
that of convergence in distribution. Asymptotic distribution of
n
w depends on the
nature of
*
W . In general
*
W may consist of isolated points and/or isolated flat.
If convergence to a flat occurs, then the estimated weights
n
w have a limiting
distribution that can be analyzed using the theory of Phillips (1989) for partially
identified models. These distributions belong to the limiting mixed Gaussian
(LMG) family introduced by Phillips. When
*
w is locally unique, the model is said
to be locally identified and estimated weights
n
w converging to
*
w have a
limiting multivariate normal distribution.
The condition ensuring that
n
w is the multivariate normal distribution have
been studied further by White (1989b). The following theorem is one of the
results of Whites works.
Theorem 3.2. (White, 1989b) Let ) , F , ( P , } {
t
Z , W and l be as in Theorem
3.1, and suppose that P s a
n
. .
*
w w where
*
w is an isolated element of
*
W
interior to W.
Suppose in addition that for each z in
v
, is continuously differentiable of
order 2 on

W; that < )) , ( ) , ( (
* *
w w
t t
Z l Z l E ; that each element of l
2
is
dominated on W by an integrable function; and that )) , ( (
* 2 *
w A
t
Z l E and
) ) , ( ) , ( (
* * *
w w B
t t
Z l Z l E are nonsingular ) ( s s matrices, where and
2
denote the ) 1 ( s gradient and ) ( s s Hessian operators with respect to w.
Then ) , ( ) (
* *
C 0 w w
d
n
n , where
1 1 *
A B A C . If in addition
each element of l l is dominated on W by an integrable function, then
P s a
n


. .

C C , where
1 1

n n n n
A B A C , and

n
Z l
n
t n t
n

1
2
) , (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B .

3.4. Hypothesis Testing by Using Wald Test
White (1989b) stated that taking one Nonlinear Least Squares (NLS)
Newton-Raphson step from the backpropagation estimator asymptotically
Summary 159
equivalent to NLS. Thus, tests of hypotheses bases on
n
w can be conducted for
selecting the optimal architecture of FFNN.
The Wald statistic allows the simplest analysis, although it may or may not
the easiest statistic to compute in a given situation. The motivation for the Wald
statistic is that when the null hypothesis is correct 0 Sw

:
0
H should be close
to 0 Sw

:
1
H , so a value of s w S
n
far from zero is evidence against the null
hypothesis.
The theorem about Wald statistic that be used for hypothesis testing of
parameters in NN model is constructed as the following results.
Theorem 3.3. Let the conditions of Theorem 3.2 2 hold, i.e.
(i) ) , ( ) (
2 / 1
I 0 w w C

d
n
n , where
'
1 1
A B A C

, and
1

C is
) 1 ( O .
(ii) there exists a matrix
n
B

positive semidefinite and symmetric such that

B B
n

0
p
. Then

C C
n

0
p
, where
1 1

n n n n
A B A C ,

n
, Z l
n
t n t
n

1
2
) (

w
A ,
n
Z l Z l
n
t n t n t
n

1
) , ( ) , (

w w
B ,
And, let k q ) ( rank S . Then under s H

Sw :
0
,
(i) ) , ( ) (
2 / 1
I 0 s w S
d
n n
n , where

'
n
S SC '
'
S A B SA
1 1
.
(ii) The Wald statistic,
2 1
) (

) (
q
d
n n n n
n W

s w S s w S ,
where '
n n
S C S

.

Thus, a test about the relevance (significance) of input with null hypothesis
0 Sw

:
0
H again 0 Sw

:
1
H could be done by applying Theorem 3.3. As an
example, Wald test for this hypothesis testing can be calculated as
n n n
n W w S S SC S w ) (

1
,
where

C as stated at the previous section.



Summary 160
4. FFNN FOR TIME SERIES FORECASTING
Time series forecasting is one of the main fields for FFNN application. In
this situation, FFNN can be seen as a nonlinear time series model. Let
t
be the
information set
t
} 0 , ; 0 , { >

i X j Y
i t j t
, n t , , 2 , 1 K , (4.1)
and denote all of the lags variables
t
Y and a vector of exogenous variables
t
X .
The modeling process will then attempt to find a satisfactory approximation for
) (
t
I f such that
) ( ] | [
t t t
I f Y E . (4.2)
Terasvirta et al. (1994) proposed three steps of modeling strategies that be
used for nonlinear time series model. The proposed strategy is as follows:
(i). Test
t
Y for linearity, using the information
t
.
(ii). If linearity is rejected, consider a small number of alternative
parametric models and/or nonparametric models.
(iii). These models should be estimated in-sample and compared out-of-
sample.
The strategy is by no means guaranteed to be successful. For example, if the
nonlinearity is associated with a specific feature of the data, but if this feature
does not occur in the post-sample evaluation period, then the nonlinear model
may not perform any better than a linear model.
This section contains the results of theoretical and empirical study of
nonlinearity test for time series, and theoretical study about procedure for FFNN
model building applied to time series. The result about nonlinearity test can be
completely found in Suhartono and Subanar (2004), also Subanar and Suhartono
(2005, 2006a).

4.1. Statistically Inference of R
2
Incremental
Suhartono et al. (2006a) used statistical inference of R
2
incremental
contribution on the forward procedure to determine the best architecture of
FFNN. This approach involves three basic steps, which can be described in the
following theorem.
Summary 161
Theorem 4.1. Let the Reduced Model is defined as
) ( ) (
) , (
R
t
R
n t t
X f Y + w , (4.3)
where
R
l is the number of parameters to be estimated. And, let the Full Model
that is more complex than Reduced Model is defined as
) ( ) (
) , (
F
t
F
n t t
X f Y + w , (4.4)
where
F
l is the number of parameters in the Full Model,
R F
l l > . Then, under or
testing for and additional parameters in the Full Model equal to zero, the F
statistic can be constructed, i.e.
]) [ ], [ (
) (
) ( ) (
2 1
~
) /(
) /( ) (
F R F
l n v l l v
F F
R F F R
F
l n SSE
l l SSE SSE


. (4.5)
Statistik uji F ini dapat pula dinyatakan dalam bentuk
) ( ) (
) ( ) ( ) ( ) (
/
) /( ) (
F F
F R F R
df SSE
df df SSE SSE
F

, (4.6)
or

) (
2
) (
) ( ) (
2
l incrementa
) 1 (
) (
F F
F R
df R
df df R
F

, (4.7)
where
2
) (
2
) (
2
l incrementa R F
R R R ,
) (R
df
R
l n is degree of freedom at Reduced
Model, and
) (F
df
F
l n is degree of freedom at Full Model.

4.2. Algorithm for FFNN Model Building: Implementation of Nonlinearity
test, Statistical Inference of R
2
incremental
and Wald test
Based on the Wald test and statistically inference of R
2
incremental
, we
proposed two new procedures for FFNN model building that applied for time
series forecasting. In the first step, nonlinearity test is employed to validate
whether a nonlinear time series model must be used for analyzing the time series
data.
These two algorithms are started with the same approach, i.e. forward
scheme by using inference of R
2
incremental
for determining the optimal number of
hidden nodes. Then, the first procedure continue with the same forward scheme
for selecting the optimal input units, and illustrated as Figure 4.1. Whereas, the
Summary 162
second procedure continue to the backward scheme by implementing Wald test
for selecting the optimal input units. This combination between inference of
R
2
incremental
and Wald test is illustrated in Figure 4.2.


START



Apply nonlinearity test for detecting
nonlinear relationship in time series.



Does nonlinearity test
show that there is a nonlinear
relationship?





Specify FFNN model with many (relative) inputs
and 1 neuron unit in the hidden layer as
preliminary step for determining the optimal
number of hidden nodes.



Does the additional 1 node in
the hidden layer yield the significance
of R
2
incremental ?





Specify FFNN model with FIXED number of
hidden nodes as result of the previous step,
start with lag inputs that has the largest R
2
.




Does the additional 1 lag
Input yield the significance of
R
2
incremental ?




END


Figure 4.1. The first proposed procedure of FFNN model building
for time series forecasting
YES
NO
NO
Apply ARIMA
model.
NO
Add 1 node in
the hidden layer.
YES
Add 1 additional
lag input.
YES
Summary 163



START



Apply nonlinearity test for detecting
nonlinear relationship in time series.



Does nonlinearity test
show that there is a nonlinear
relationship?





Specify FFNN model with many (relative) inputs
and 1 neuron unit in the hidden layer as
preliminary step for determining the optimal
number of hidden nodes.



Does the additional 1 node in
the hidden layer yield the significance
of R
2
incremental ?





Specify FFNN model with FIXED number of
hidden nodes as result of the previous step,
use many (relative) lag inputs in the FFNN.




By using Wald test,
are there the not significance lag
inputs?




END


Figure 4.2. The second proposed procedure of FFNN model building
for time series forecasting

YES
NO
NO
Apply ARIMA
model.
NO
Add 1 node in
the hidden layer.
YES
Eliminate the not
significance lag.
YES
Summary 164
5. EMPIRICAL RESULTS
In this research, there are four main empirical studies that have been
completed. The first empirical study is used to show that F test for validating the
significance of R
2
incremental
, and Wald test work properly for FFNN model building
that be applied for time series univariate. This part is done by using simulation
data of a nonlinear time series. The results of this studies generally show that two
new proposed procedures work properly for selecting the best FFNN
architecture. The complete results of this studies have been published and can
be seen in Suhartono et al. (2006a, 2006b), also in Subanar and Suhartono
(2006b).
The second empirical study focuses on the forecast accuracy comparison
between FFNN and classical time series models. There are two main cases that
used in this study, i.e. monthly Indonesian inflation and data about the number of
international airline passenger known as Airline Data. In general, the results
show that complex model does not always yield better forecast than simple
models. The results of this study also have been published and can be seen
completely in Suhartono (2005), and Suhartono et al. (2005a, 2005c, 2006c).
In the third part, research focuses to study a new data preprocessing
method for NN, particularly at time series containing trend and seasonal pattern.
This study give an opportunity to develop new hybrid model as the result of
combination between time series models and FFNN. Airline data is used as a
case study. The results of the third empirical study can be seen completely in
Suhartono et al. (2005b), also in Suhartono and Subanar (2006a).
Finally, the application of FFNN for multivariate time series forecasting is
done in the fourth empirical study. This part focuses on the spatial time series
case. Additionally, evaluation about stationary condition of GSTAR(1
1
) model and
determination method of spatial weights are also done. The results of this
empirical study can be seen in Suhartono in Subanar (2006b, 2007).

6. CONCLUSION AND OPEN PROBLEM
By using asymptotic and convergence theorems, asymptotic properties of
FFNN estimators that follow multivariate normal distribution can be derived.
Summary 165
Then, these asymptotic properties are used to construct Wald test implemented
for doing statistical inference of FFNN estimator. The new statistic test by using
contribution incremental or R
2
incremental
has been constructed. This test contains
three main steps of modeling, i.e. Reduced model, Full model, and determination
of F test statistic.
Two new procedures for FFNN model building applied for time series
forecasting are the main contribution of this research. The first procedure
implements F test for R
2
incremental
inference in forward scheme that start from
determination of the number of neurons in hidden layer and then selection of the
optimal inputs. The second procedure uses a combination between F test for
R
2
incremental
inference in forward scheme for determining the number of neurons in
hidden layer and Wald test in backward scheme for selecting the optimal inputs.
The empirical results show that two procedures can work properly for
determining the optimal FFNN architecture that be applied for time series
forecasting. The comparison results between FFNN and other time series models
show that FFNN does not always yield the best forecast. Additionally, the
empirical study about the effect of data preprocessing also have been done and
the result shows that determination of an optimal data preprocessing can
increase significantly the forecast accuracy of FFNN. Finally, the comparison
study between FFNN and other time series models on the multivariate case has
been also conducted. The comparison result by using the oil production data
shows that FFNN yields better forecast than GSTAR (Generalized Space-Time
Autoregressive) and VAR (Vector Autoregressive) models.
Based on the results at the previous section, there are some open problems
that need further research, i.e.
1. Developing of nonlinearity test for multivariate time series, including spatial
time series. This test will give a fundamental argument about the use of
nonlinear model, particularly FFNN for multivariate or spatial time series.
2. Developing of FFNN model building procedure by using a combination
between R
2
incremental
and Wald test for pruning the connection from inputs to
hidden nodes, also from hidden nodes to output units. The further research
focuses on the computational aspect and will give a new direction about the
FFNN architecture.
Summary 166
3. Developing of FFNN for time series forecasting on nonmetric data (nominal
or ordinal scale) and/or metric data that are not continuous and not normally
distributed. Its caused many real problems in time series analysis are also
deal with qualitative data.
4. Developing of hybrid models for time series forecasting, i.e. a combination
between FFNN and other models, such as Wavelet NN or Fuzzy NN. The
empirical results about the effect of data preprocessing inspire to develop
hybrid model that combine NN and other models.

- 167 -
DAFTAR PUSTAKA


Anders, U. and Korn, O. (1999). Model selection in neural network. Neural
Networks, 12, 309-323.
Bates, D.M. and Watts, D.G. (1988). Nonlinear Regression Analysis and Its
Applications. Wiley, New York.
Baxt, W.G. (1991). Use of an artificial neural network for the diagnosis of
myocardial infarction. Annals of Internal Medicine, 115, 843-848.
Blake, A.P. and Kapetanios, G. (2003). Pure Significance Tests of The Unit Root
Hypothesis Against Nonlinear alternatives. Journal of Time Series Analysis,
Vol. 24, No. 3, 253-267.
Billingsley, P. (1979). Probability and Measure, 2
nd
edition. Wiley-Interscience,
New York.
Bishop, C.M. (1995). Neural Network for Pattern Recognition. Oxford: Clarendon
Press.
Borovkova, S.A., Lopuhaa, H.P. and Ruchjana, B.N. (2002). Generalized STAR
model with experimental weights. In M Stasinopoulos & G Touloumi (Eds.),
Proceeding of the 17
th
International Workshop on Statistical Modeling,
Chania-Greece, pp. 139-147.
Box, G.E.P., Jenkins, G.M. and Reinsel, G.C. (1994). Time Series Analysis,
Forecasting and Control, 3
rd
edition. Englewood Cliffs: Prentice Hall.
Brockwell, P.J. and Davis, R.A. (1991). Time Series: Theory and Methods, 2
nd

edition. New York: Springer Verlag.
Broomhead, D.S. and Lowe, D. (1988). Multivariable functional interpolation and
adaptive network. Complex Systems, 2, 321-355.
Chatfield, C. (2001). Time Series Forecasting. Chapman & Hall, London.
Cheng, B. and Titterington, D.M. (1994). Neural Networks: A Review from a
Statistical Perspective. Statistical Science, 9, 2-54.

Daft ar Pust aka

168
Cherkassky, V., Friedman, J.H. and Wechsler, H. (1994). From Statistics to
Neural Networks: Theory and Pattern Recognition Applications. Berlin:
Springer-Verlag.
Connor, J.T., Atlas, L.E. and Martin, D.R. (1992). Recurrent networks and
NARMA modeling. In Moody, J.E., Hanson, S.J., and Lippmann, R.P. (eds.),
Advances in Neural Information Processing Systems, Vol. 4, pp. 301-308.
Morgan Kaufmann Publishers, Inc.
Connor, J.T., Martin, D.R., and Atlas, L.E. (1994). Recurrent networks and robust
time series prediction. IEEE Transactions on Neural Networks, 5, 240-254.
Cryer, J.D. (1986). Time Series Analysis. Boston: PWS-KENT Publishing
Company.
Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function.
Mathematics of Control, Signals and Systems, 2, 304-314.
Elman, J.L. (1990). Finding structure in time. Cognitive Science, 14, 179-211.
Fahlman, S.E. and Lebiere, C. (1990). The Cascade-Correlation Learning
Architecture. In Touretzky, D.S. (ed.), Advances in Neural Information
Processing Systems 2, Los Altos, CA: Morgan Kaufmann Publishers, pp.
524-532
Faraway, J. and Chatfield, C. (1998). Time series forecasting with neural
network: a comparative study using the airline data. Applied Statistics, 47,
231-250.
Fine, T.L. (1999). Feedforward Neural Network Methodology. Springer, New
York.
Funahashi, K. (1989). On the approximate realization of continuous mappings by
neural networks. Neural Networks, 2, 183-192.
Granger, C.W.J. and Terasvirta, T. (1993). Modeling Nonlinear Economic
Relationships. Oxford: Oxford University Press.
de Groot, C. and Wurtz, D. (1991). Analysis of univariate time series with
connectionist nets: A case study of two classical examples. Neurocomputing.
3, 177-192.
Daft ar Pust aka

169
Hamilton, J.D. (1994). Time Series Analysis. New Jersey: Princeton University
Press.
Harvey, A.C. (1990). Econometrics analysis of time series. 2
nd
edition.
Cambridge, MA: MIT Press.
Haykin, H. (1999). Neural Networks: A Comprehensive Foundation, 2
nd
edition.
Prentice-Hall, Oxford.
Hornik, K., Stinchombe, M. and White, H. (1989). Multilayer feedforward
networks are universal approximators. Neural Networks, 2, 359-366.
Hornik, K., Stichcombe, M. and White, H. (1990). Universal approximation of an
unknown mapping and its derivatives using multilayer feedforward networks.
Neural Networks, 3, pp. 551-560.
Jordan, M. (1986). Serial Order: A Parallel Distributed Processing Approach. ICS
Report 8604, Institute for Cognitive Science, University of California, San
Diego, California, USA.
Kaashoek, J.F. and Van Dijk, H.K., (2001). Neural Networks as Econometric
Tool. Report EI 200105, Econometric Institute Erasmus University
Rotterdam.
Kaashoek, J.F., and Van Dijk, H.K. (2002). Neural Network Pruning Applied to
Real Exchange Rate Analysis. Journal of Forecasting, 21, pp. 559-577.
Kippenhan, J.S., Barker, W.W., Pascal,S., Nagel, J. and Duara, R. (1992).
Evaluation of a neural network classifier for PET scans of normal and
Alzheimer disease subjects. Journal of Nuclear Medicine, 33, 1459-1467.
Kuan, C.M. and White, H. (1994). Artificial Neural Networks: An econometric
perspective. Econometric Reviews, 13, 1-91.
Lapedes, A. and Farber, R. (1987). Nonlinear Signal Processing Using Neural
Networks: Prediction and System Modeling. Technical Report LAUR-87-2662,
Los Alamos National Laboratory, Los Alamos, NM.
Lee, T.H., White, H. and Granger, C.W.J. (1993). Testing for Neglected
Nonlinearity in Time Series Models: A comparison of Neural Network
methods and alternative test. Journal of Econometrics, 56, pp. 269-290.
Daft ar Pust aka

170
Leung, M.T., Chen, A.S. and Daouk, H. (2000). Forecasting exchange rates
using general regression neural networks. Computers and Operations
Research, 27, 1093-1110.
Leung, C.S. and Chan, L.W. (2003). Dual extended Kalman filtering in recurrent
neural network. Neural Networks, 16, 223-239.
Lisi, F. and Schiavo, R.A. (1999). A comparison between neural network and
chaotic models for exchange rate prediction. Computational Statistics & Data
Analysis, 30, 87-102.
Littmann, E. and Ritter, H. (1996). Learning and generalization in cascade
network architectures, Neural Computation, 8, 1521-1539.
Luukkonen, R., Saikkonen, P. and Terasvirta, T. (1988). Testing linearity against
smooth transition autoregressive models. Biometrika, 75, 491-499.
McCullogh, W.S. and Pitts, W. (1943). A logical calculus of the ideas immanent in
nervous activity. Bulletin of Mathematical Biophysics, Vol. 5, pp. 115-133.
Medeiros, M.C., Terasvirta, T. and Rech, G. (2002). Building Neural Network for
Time Series: A Statistical Approach. SSE/EFI Working Paper Series in
Economics and Finance No. 508.
Mittelhammer, R.C. (1996). Mathematical Statistics for Economics and Business.
New York: Springer.
Moller, M. (1997). Efficient Training of Feed-Forward Neural Networks. Ph.D.
Thesis, Computer Science Department, Aarhus University.
Moody, J. and Darken, C. (1989). Fast learning in networks of locally tuned
processing units. Neural Computation, 1 (2), 281-294.
Motiwalla, L. and Wahab, M. (2000). Predictable variation and profitable trading
of US equities: a trading simulation using neural networks. Computers &
Operations Research, 27, 1111-1129.
Pazos, A., Maojo, V., Martin, F. and Ezquerra, N. (1992). A neural network
approach to assess myocardial infarction. In: Lun et al. (eds.), Medinfo: 92,
659-663: Amsterdam, Elsevier.
Pfeifer, P.E. and Deutsch, S.J. (1980a). A Three Stage Iterative Procedure for
Space-Time Modeling. Technometrics, Vol. 22, No. 1, pp. 35-47.
Daft ar Pust aka

171
Pfeifer, P.E. and Deutsch, S.J. (1980b). Identification and Interpretation of First
Order Space-Time ARMA Models. Technometrics, Vol. 22, No. 1, pp. 397-
408.
Phillips, P.C.B. (1989). Partially identified econometric models. Econometric
Theory, vol. 5, pp. 181-240.
Poggio, T. and Girosi, F. (1990). Network for approximation and learning.
Proceedings of IEEE, 78 (9), 1491-1497.
Prechelt, L. (1997). Investigation of the CasCor Family of Learning Algorithms.
Neural Networks, 10, 885-896.
Priestley, M.B. (1980). State-dependent models: a general approach to non-
linear time series analysis. Journal of Time Series Analysis, 1, 47-71.
Priestley, M.B. (1991). Non-Linear and Non-Stationary Time Series Analysis, 2
nd

edition. London: Academic Press.
Reddy, D.C. and Korrai, D.R. (1992). Neural Networks for classification of EEG
signals. In: Lun et al. (eds.), Medinfo: 92, 653-658: Amsterdam, Elsevier.
Reed, R. (1993). Pruning algorithms A survey. IEEE Transactions on Neural
Networks, 4, 740-747.
Reed, R.D. and Marks II, R.J. (1999). Neural Smithing. MIT Press, Cambridge,
MA.
Ripley, B.D. (1993). Statistical Aspects of Neural Networks. In O.E. Barndorff-
Nielsen, J.L. Jensen and W.S. Kendall, eds., Networks and Chaos: Statistical
and Probabilistic Aspects, Chapman & Hall.
Ripley, B.D. (1994). Neural Networks and Related Methods for Classification,
Journal of the Royal Statistical Society, Series B, 56, 409-456.
Ripley, B.D. (1996). Pattern Recognition and Neural Networks. Cambridge
University Press, Cambridge.
Ruchjana, B.N. (2002). Curve Modeling of Oil Production by Using Generalized
S-TAR Model. Forum Statistika dan Komputasi, Special Edition, IPB, Bogor.
Ruchjana, B.N. (2003). The Stationary Conditions of The Generalized Space-
Time Autoregressive Model. Proceeding of the SEAMS-GMU Conference,
Gadjah Mada University, Yogyakarta.
Daft ar Pust aka

172
Rumelhart, D. and McClelland, J. (1986). Parallel Distributed Processing:
Explorations in the Microstructures of Coginition, Vol. 1., Cambridge: MIT
Press.
Saikkonen, P. and Luukkonen, R. (1988). Lagrange multiplier tests for testing
non-linearities in time series models. Scandinavian Journal of Statistics, 15,
55-68.
Sarle, W. (1994), Neural network and Statistical Models. In Proceeding 19
th
A
SAS Users Group Int. Conf., pp. 1538-1550. Cary: SAS Institute.
Seber, G.A.F. and Wild, C.J. (1989). Nonlinear Regression. Wiley, New York.
Serfling, R. (1980). Approximation Theorems of Mathematical Statistics. Wiley,
New York.
Somoza, E. and Somoza, J.R. (1993). A neural network approach to predicting
admission in a psychiatric emergency room. Medical Decision Making, 13,
273-280.
Subanar and Suhartono (2005). Monte Carlo Simulation Study of The Neural
Network Linearity Test for Time Series. Proceeding Asian Mathematics
Conference (AMC05), National University of Singapore, Singapore.
Subanar dan Suhartono (2006a). Uji linearitas tipe Lagrange Multiplier dengan
ekspansi Taylor untuk deteksi hubungan nonlinear pada data time series,
Journal of The Indonesian Mathematical Society (MIHMI), Vol. 12, No. 1,
17-32.
Subanar and Suhartono (2006b). Model Selection in Neural Networks by using
Inference of R
2
incremental
and Principal Component Analysis for Time Series
Forecasting. Presented at The 2
nd
IMT-GT Regional Conference on
Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains
Malaysia, Penang.
Subanar, Guritno, S. dan Hartati, S. (2005). Neural Network, Pemodelan Statistik
dan Peramalan Data Finansial. Laporan Penelitian HPTP Tahun I, UGM,
Yogyakarta.
Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for Forecasting
Indonesian Inflation. Jurnal Widya Manajemen & Akuntansi, Vol. 5, No. 3, hal.
45-65.
Daft ar Pust aka

173
Suhartono and Atok, R.M. (2005). Perbandingan antara model VARIMA dan
GSTAR untuk peramalan data deret waktu dan lokai. Prosiding Seminar
Nasional Statistika VII, Institut Teknologi Sepuluh Nopember, Surabaya.
Suhartono dan Atok, R.M. (2006). Pemilihan bobot lokasi yang optimal pada
model GSTAR. Prosiding Konferensi Nasional Matematika XIII, Universitas
Negeri Semarang.
Suhartono and Subanar (2004). The Neural Network Linearity Test for Time
Series Modeling. Proceeding International Conference on Statistics and
Mathematics and Its Applications in the Development of Science and
Technology, Bandung Islamic University, Bandung.
Suhartono and Subanar (2006a). The Effect of Decomposition Method as Data
Preprocessing on Neural Networks Model for Forecasting Trend and
Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan
Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41.
Suhartono and Subanar (2006b). The Optimal Determination of Space Weight in
GSTAR Model by using Cross-correlation Inference. JOURNAL OF
QUANTITATIVE METHODS: Journal Devoted to The Mathematical and
Statistical Application in Various Fields, Vol. 2, No. 2, pp. 45-53.
Suhartono and Subanar (2007). Some Comments on the Theorem Providing
Stationarity Condition for GSTAR Models in the Paper by Borovkova et al.
Journal of The Indonesian Mathematical Society (MIHMI), Vol. 13, No. 1, pp.
44-52.
Suhartono, Subanar and Guritno, S. (2005a). A Comparative Study of
Forecasting Models for Trend and Seasonal Time Series: Does complex
model always yield better forecast than simple models? JURNAL TEKNIK
INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 7, No. 1, pp.
27-41.
Suhartono, Subanar and Guritno, S. (2005b). The Impact of Data Preprocessing
on Feedforward Neural Networks Model for Forecasting Trend and Seasonal
Time Series. Proceeding Mini Symposia, International Con-ference on
Applied Mathematics (ICAM05), ITB, Bandung.
Suhartono, Subanar and Rezeki, S. (2005c). Feedforward Neural Networks
Model for Forecasting Trend and Seasonal Time Series. Proceeding of The
Daft ar Pust aka

174
1
st
IMT-GT Regional Conference on Mathematics, Statistics, and Their
Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia
Suhartono, Rezeki, S., Subanar and Guritno, S. (2005d). Optimisation of
Backpropagation Algorithm of Feedforward Neural Networks for Regression
and Time Series Modeling. Proceeding International Regional Conference on
Mathematics, Statistics and Its Application (IRCMSA), Danau Toba, Medan.
Suhartono, Subanar and Guritno, S. (2006a). Model Selection in Neural
Networks by Using Inference of R
2
Incremental
, PCA, and SIC Criteria for Time
Series Forecasting, JOURNAL OF QUANTITATIVE METHODS: Journal
Devoted to The Mathematical and Statistical Application in Various Fields,
Vol. 2, No. 1, 41-57.
Suhartono, Subanar and Guritno, S. (2006b). Model Building in Neural Networks
for Time Series Forecasting by Using Inference of R
2
Incremental and SIC
Criterion. Proceeding of The 2
nd
Information and Communication Technology
Seminar (ICTS), Institut Teknologi Sepuluh Nopember, Surabaya.
Suhartono, Subanar and Guritno, S. (2006c). The Impact of Linearity test on
Forecasting Indonesian Inflation by Using Neural Networks. Proceeding of the
International Conference on Mathematics and Statistics (ICOMS), Bandung
Islamic University, Bandung.
Swanson, N.R. and White, H. (1995). A model-selection approach to assessing
the information in the term structure using linear models and artificial neural
networks. Journal of Business and Economic Statistics, 13, 265-275.
Swanson, N.R. and White, H. (1997a). Forecasting economic time series using
flexible versus fixed specification and linear versus nonlinear econometric
models. International Journal of Forecasting, 13, 439-461.
Swanson, N.R. and White, H. (1997b). A model-selection approach to real-time
macroeconomic forecasting using linear models and artificial neural networks.
Review of Economic and Statistics, 79, 540-550.
Tang, Z., Almeida, C. and Fishwick, P.A. (1991). Time series forecasting using
neural networks vs. Box-Jenkins methodology. Simulation, 57:5, pp. 303-310.
Daft ar Pust aka

175
Terasvirta, T. and Lin, C.F. (1993). Determining the number of hidden units in
single hidden-layer neural network model. Research Report 1993/7, Bank of
Norway.
Terasvirta, T., Lin, C.F. and Granger, C.W.J. (1993). Power of the neural network
linearity test. Journal of Time Series Analysis, 14, 159-171.
Terasvirta, T., Tjostheim, D. and Granger, C.W.J. (1994). Aspect Modelling
Nonlinear Time Series, in: R.F. Engle and D.L. McFadden, eds., Handbook of
econometrics. Vol. 4, Chapter 48, pp. 2919-2957, Elsevier Science B.V.
Tong, H. (1990). Non-Linear Time Series: A Dynamical System Approach.
Oxford: Oxford University Press.
Wei, W.W.S. (1990). Time Series Analysis: Univariate and Multivariate Methods.
Addison-Wesley Publishing Co., USA.
Weigend, A.S. (1996). Time series analysis and prediction. In Smolensky, P.,
Mozer, M.C., and Rumelhart, D.E. (eds.), Mathematical Perspectives on
Neural Networks. Mahwah, New Jersey: Lawrence Erlbaum Associates.
Weigend, A.S., Hubermann, B.A. and Rumelhart, D.E. (1990). Predicting the
future: A connectionist approach. International Journal of Neural Systems, 1,
193-209.
Weigend, A.S. and Gershenfeld, N.A. (eds.) (1993). Time Series Prediction:
Forecasting the Future and Understanding the Past. Reading, MA: Addison-
Wesley.
Weinstein, J.N., Kohn, K.W., Greuer, M.R., Viswanadhan, V.N. and Rubinstein,
L.V. (1992). Neural computing in cancer drug development: Predicting
mechanism of action. Science, 258, 447-451.
West, P.M., Brockett, P.L. and Golden, L.L. (1997). A comparative analysis of
neural networks and statistical methods for predicting consumer choice.
Marketing Science, 16, 370-391.
White, H. (1989a). Some asymptotic results for learning in single hidden layer
feedforward networks. Journal of the American Statistical Association, Vol.
84, No. 408, pp. 1003-1013.
White, H. (1989b). Learning in Artificial Neural Networks: A statistical
Perspective. Neural Computation, Vol. 1, pp. 425-464.
Daft ar Pust aka

176
White, H. (1989c). An additional hidden unit test for neglected nonlinearity in
multilayer feedforward networks. In Proceedings of the International Joint
Conference on Neural Networks, vol. 2, pp. 451-455, Washington, DC. IEEE
Press, NY.
White, H. (1990). Connectionist nonparametric regression: Multilayer feed
forward networks can learn arbitrary mapping. Neural Networks, 3, 535-550.
White, H. (1999). Asymptotic Theory for Econometricians. Academic Press Inc.,
New York.
Wilson, R.L. (1994). A neural network approach to decision alternative
prioritization. Decision Support Systems, 11, 431-447.
Wilson, R.L. and Sharda, R. (1994). Bankruptcy prediction using neural network.
Decision Support Systems, 11, 545-557.
Wong, B.K., Lai, V.S. and Lam, J. (2000). A bibliography of neural network
business applications research: 1994-1998. Computers and Operations
Research, 27, 1045-1076.
Yao, J. and Tan, C.L. (2000). A case study on using neural networks to perform
technical forecasting of forex. Neurocomputing, 34, 79-98.
Yule, G.U. (1927). On a method of investigating periodicities in distributed series
with special reference to Wolfers sunspot numbers. Philosopical
Transactions of the Royal Society of London Series A, 226, 267-298.


- 177 -
Lampiran 1 : Kumpulan bukti-bukti Teorema di Bab III
Bukti: (Teorema 3.2.1, White 1989b)
Aplikasikan Proposisi 3.2.1 untuk pembuktian teorema ini. Asumsi 3.2.1
memastikan bahwa } {
n
Z adalah IID dan terbatas secara seragam. Asumsi 3.2.2
memastikan bahwa )) , ( ( ) , ( ) , ( ) , ( w x y w x w x y w z f f , q m adalah
dapat diturunkan secara kontinyu pada
l v
. Diketahui bahwa
))) ( ( ) ( ( ) ) , , ( ( ) ( w w w w
t t t t t
f Y f E X Y q E M .
Untuk w tetap, kontinyuitas dari )) , ( ( ) , ( w x w x f y f pada suatu sub-
himpunan kompak
v
yang mengandung ) , (
t t
X Y berimplikasi bahwa
)) ( ( ) ( w w
t t t
f Y f adalah terbatas, memastikan bahwa < ) (w M . Asumsi
3.2.3 menentukan suatu kondisi untuk } {
n
.
Gunakan 2 / ))] ( ( ) ) ( [( ) ( w w w
t t t t
f Y f Y E Q . Dengan versi
terlokalisasi Teorema 16.8(ii) dari Billingsley (1979; halaman 181-182), untuk
setiap
l
w dapat diperoleh ) ( ) ) ( (( ) ( w w w
t t t
f f Y E Q , diberikan
Asumsi 3.2.1 dan 3.2.2. Sebagai konsekuensinya, ) ( ) ( w w M Q , sehingga
) ( ) ( w w M Q 0 ) ( ) ( w w M M untuk semua w dalam
l
. Kondisi dari
Proposisi 3.2.1(a) dengan demikian telah terpenuhi, membuktikan hasil yang
pertama.
Untuk membuktikan hasil kedua, dilakukan jika
n
w
~
. Anggap hal itu
tidak dipenuhi. Kondisi dari Proposisi 3.2.1(a) telah dibuktikan, dan
) ( ) ( w w Q M . Diasumsikan bahwa ) (w Q mempunyai titik-titik stasioner
yang terisolasi, sehingga ini tetap untuk membuktikan kondisi dari Proposisi
3.2.1(b) untuk setiap

W w . Dengan versi terlokalisasi Teorema 16.8(ii) dari
Billingsley (1979; halaman 181-182), ) (w M adalah dapat diturunkan secara
kontinyu untuk semua w dalam
l
, diberikan Asumsi 3.2.1 dan 3.2.2, dengan
)) ( ] ) ) ( [( ) ( ) ( ( ) (
2
w w w w w
t l t t t t
f I f Y f f E M ,

Lampiran 1. Lanjut an

178
dengan ) vec (
2
f f adalah suatu matriks turunan kedua yang berukuran
l lp . Suatu batasan yang seragam dari ) , (
t t
X Y memastikan < ) (w M
untuk semua w. Batasan ini juga memastikan keberhinggaan (finiteness) dari
*
J , yang diasumsikan definit positif. Dengan demikian kondisi dari Proposisi
3.2.1(b) terpenuhi, dan dengan Proposisi 3.2.1(c)
n
w
~
cenderung menuju suatu
minimum lokal dari ) (w Q .

Bukti: (Teorema 3.2.2, White 1989b)
Eksistensi dari
n
w mengikuti karena untuk setiap realisasi dari } {
t
Z ,
n
Q

adalah
suatu fungsi kontinyu pada suatu himpunan kompak, K , 2 , 1 n .
Diberikan dominasi dari l dan kekompakan dari W, seperti pada
Teorema 16.8(i) dari Billingsley (1979; halaman 181-182) bahwa Q adalah
kontinyu pada W. Diberikan dominasi dari l , kekompakan dari W, dan asumsi
} {
t
Z adalah IID, dengan mengikuti hukum seragam dari bilangan besar atau the
uniform law of large numbers, bahwa P s a Q Q
n W w

. . 0 | ) ( ) (

| sup w w . Pilih
suatu realisasi dari } {
t
Z agar supaya konvergensi ini terjadi.
Untuk realisasi ini, misalkan } {
n
w adalah suatu barisan yang memi-
nimisasi
n
Q

, K , 2 , 1 n . Karena W adalah kompak, maka ada suatu titik batas


W w
O
dan suatu sub barisan } {n sedemikian hingga
O
n
w w

. Ini
mengikuti pertidaksamaan segitiga yaitu


| ) (

) (

|
0
w w Q Q
n n
2 | ) ( ) ( | | ) ( ) (

| < +

O
n n n n
Q Q Q Q w w w w ,
untuk sembarang 0 > dan semua n cukup besar, diberikan suatu konvergensi
seragam dan kontinyuitas yang telah terbukti. Sekarang
) ( ) ( w w Q Q
O
)] (

) (

[ )] (

) ( [ w w w w
n n n n n
O
Q Q Q Q

+
3 )] ( ) (

[ +

w w Q Q
n

untuk sembarang 0 > dan semua n cukup besar, karena ) (

) (
n n
O
Q Q

w w
2 seperti yang telah terbukti, 0 ) (

) (



w w
n n n
Q Q melalui optimalisasi
n
w


Lampiran 1. Lanjut an

179
dan <

) ( ) (

w w Q Q
n
melalui konvergensi seragam. Karena adalah sem-
barang, ) ( ) ( w w Q Q
O
, dan karena w adalah sembarang
*
W w
O
. Karena
} {
n
w adalah sembarang, maka setiap titik batas
O
w dari suatu barisan adalah
termasuk dalam
*
W .
Sekarang anggap bahwa 0 inf
*
* *

w w
n
W w
. Maka, ada suatu 0 >
dan suatu sub barisan } {n sedemikian hingga

*
w w
n
untuk semua n
dan

W w . Meski begitu } {
n
w mempunyai suatu titik batas yang (melalui
argumen sebelumnya) harus termasuk dalam
*
W . Ini adalah suatu kontradiksi
dengan

*
w w
n
untuk semua n , sehingga 0 inf
*
* *

w w
n
W w
.
Karena realisasi dari } {
t
Z dipilih dari suatu himpunan dengan probabilitas 1,
maka kesimpulan untuk bukti dari Teorema 3.2.2 mengikuti.

Bukti: (Teorema 3.3.2, White 1989b)
Aplikasikan Proposisi 3.3.1 untuk pembuktian teorema ini. Asumsi 3.2.1, 3.3.1,
dan 3.3.2 adalah cukup untuk Asumsi 3.2.13.2.3 dan dengan demikian juga
untuk syarat-syarat dari Proposisi 3.2.1(a). Karena

w diasumsikan ter-isolasi,
kondisi pertama dari Proposisi 3.2.1(b) terpenuhi. Kondisi-kondisi yang lain dari
Proposisi 3.2.1(b) terpenuhi dengan diberikan suatu asumsi definit positif pada

J dan Asumsi 3.2.13.2.3 (seperti yang diverifikasi pada pembuktian Teorema


3.2.1), dimana Asumsi 3.2.1, 3.3.1, dan 3.3.2 adalah cukup. Asumsi 3.2.1 dan
3.3.1 memastikan bahwa < | )) ( ( ) ( | | ) , ( | w w w
t t t t
f Y f Z m a.s. untuk semua
w dalam W, dan kondisi yang dibutuhkan pada

ditentukan secara langsung.


Asumsi 3.2.1 dan 3.3.1 membolehkan pemakaian Teorema 16.8(i) dari Billingsley
(1979; halaman 181-182) untuk membuktikan kontinyuitas dari J pada suatu
persekitaran

w . Dengan demikian kondisi-kondisi pada Proposisi 3.3.1


terpenuhi.


Lampiran 1. Lanjut an

180
Bukti: (Teorema 3.3.3, White 1989a)
Kurangi
n
w dengan

w dan kalikan dengan


2 / 1
n , menghasilkan

n n n n
M n M n n
~ ~
)
~
( ) (
2 / 1 1 2 / 1 2 / 1
w w w w
)
~
(
~ ~
)
~
(
2 / 1 1 2 / 1 1 2 / 1
w w w w
n n n n n n
n M M M n M n
& &

oleh suatu ekspansi nilai mean di sekitar

w , dengan ) , (

w
n n
M M dan
n
M
& &
mempunyai baris-baris yang dievaluasi pada nilai-nilai yang berada di
suatu segmen yang berhubungan dengan
n
w
~
dan

w .
n
M
~
adalah nonsingular
a.s. (almost sure) sebagai konsekuensi dari

w w
. . ~ s a
n
dan
0 ) , ( ) , (
. .

s a
n
M M w w secara seragam pada W, berimplikasi bahwa
0
~


M M
n
a.s. dengan asumsi,

M adalah terhingga dan nonsingular.


Tulis kembali, menghasilkan



n n
M n M n
2 / 1
1
2 / 1
) ( w w



n n
M n M M
2 / 1
1
1
)
~
(
)
~
( )
~
(
2 / 1 1
+ w w
n n n
n M M I
& &

) 1 (
2 / 1
1
p n
o M n M +

.
Sekarang ) 1 ( )
~
(
2 / 1
1
1
p n n
o M n M M


, karena 0 )
~
(
. .
1
1


s a
n
M M
sebagai konsekuensi dari 0
~
. .

s a
n
M M dan karena

n
M n
2 / 1
adalah
) 1 (
p
O diberikan bahwa

n
M n
2 / 1
) , (

B 0
d
. Selanjutnya,
) 1 ( )
~
( )
~
(
2 / 1 1
p n n n
o n M M

w w I
& &

diberikan suatu keberhinggaan dari

M , suatu fakta bahwa

M M
s a
n
. .
~

dan

M M
s a
n
. .
& &
, dan suatu asumsi bahwa ) 1 ( )
~
(
2 / 1
p n
O n

w w . Hal ini
mengikuti secara langsung [sebagai contoh, lihat Proposisi 2.3.14 di Bab II
sebelumnya atau Lemma 4.7 dan Corollary 4.24 dari White (1999; halaman 71
dan 74)] bahwa
) , ( ) (
2 / 1
C 0 w w
d
n
n ,
dengan
'
1 1
A B A C ,

M A .
Lampiran 1. Lanjut an

181
Bahwa

w w
. .

s a
n
mengikuti definisi dari
n
w dan suatu kenyataan
bahwa

w w
. . ~ s a
n
,

M M
s a
n
. .
~
, dan 0
~


M M
n
a.s. Yang terakhir
dipenuhi karena 0 ) ( ) , (
. .

s a
n
M M w w secara seragam pada W dan
0 ) (

w M . Dengan menggunakan Proposisi 2.11 dari White (1999; halaman


19),

C C
. .
~
s a
n
diberikan

A A
. .
~
s a
n
dan


n
s a
n
B B
. .
~
, dengan
n n
M
~ ~
A .





- 182 -
Lampiran 2 : Macro uji Terasvirta pada program R



## ---------------------------------------------------------------
##
## Uji Terasvirta untuk linearitas pada pemodelan time series
## Sumber : library(tseries) di R
## Author : A. Trapletti
## Modifikasi : Suhartono, S.Si., M.Sc.
## Mahasiswa S3 Statistika UGM
## Yogyakarta 2007
##
## ---------------------------------------------------------------

terasvirta.test <- function(x, ...) UseMethod("terasvirta.test")

terasvirta.test.ts <-
function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...)
{
if(!is.ts(x))
stop("method is only for time series")
if(NCOL(x) > 1)
stop("x is not a vector or univariate time series")
if(any(is.na(x)))
stop("NAs in x")
if(lag < 1)
stop("minimum lag is 1")
if(!missing(type) && !is.na(pmatch(type, "chisq"))) {
warning(paste("value `chisq' for `type' is deprecated,",
"use `Chisq' instead"))
type <- "Chisq"
}
else
type <- match.arg(type)
DNAME <- deparse(substitute(x))
t <- length(x)
if(scale) x <- scale(x)
y <- embed(x, lag+1)
xnam <- paste("y[,", 2:(lag+1), "]", sep="")
fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+")))
rr <- lm(fmla)
u <- residuals(rr)
ssr0 <- sum(u^2)
xnam2 <- NULL
m <- 0
for(i in (1:lag)) {
for(j in (i:lag)) {
xnam2 <- c(xnam2,paste("I(y[,",i+1,"]*y[,",j+1,"])",sep=""))
m <- m+1
}
}
xnam2 <- paste(xnam2,collapse="+")
xnam3 <- NULL
for(i in (1:lag)) {
for(j in (i:lag)) {
for(k in (j:lag)) {



Lampiran 2. Lanjut an

183



xnam3 <- c(xnam3, paste("I(y[,", i+1, "]*y[,", j+1,
"]*y[,", k+1, "])", sep=""))
m <- m+1
}
}
}

xnam3 <- paste(xnam3,collapse="+")
fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"),
xnam2,xnam3,sep="+")))
rr <- lm(fmla)
v <- residuals(rr)
ssr <- sum(v^2)
if(type == "Chisq") {
STAT <- t*log(ssr0/ssr)
PVAL <- 1-pchisq(STAT,m)
PARAMETER <- m
names(STAT) <- "X-squared"
names(PARAMETER) <- "df"
save(PVAL, file = tpc.Rdata)
}
else if(type == "F") {
STAT <- ((ssr0-ssr)/m)/(ssr/(t-lag-m))
PVAL <- 1-pf(STAT,m,t-lag-m)
PARAMETER <- c(m,t-lag-m)
names(STAT) <- "F"
names(PARAMETER) <- c("df1","df2")
save(PVAL, file = tpf.Rdata)
}
else
stop("invalid type")
METHOD <- "Teraesvirta Neural Network Test"
ARG <- c(lag,scale)
names(ARG) <- c("lag","scale")
structure(list(statistic = STAT,
parameter = PARAMETER,
p.value = PVAL,
method = METHOD,
data.name = DNAME,
arguments = ARG),
class = "htest")
}











- 184 -
Lampiran 3 : Macro uji White pada program R


## ---------------------------------------------------------------
##
## Uji White untuk linearitas pada pemodelan time series
## Sumber : library(tseries) di R
## Author : A. Trapletti
## Modifikasi : Suhartono, S.Si., M.Sc.
## Mahasiswa S3 Statistika UGM
## Yogyakarta 2007
##
## ---------------------------------------------------------------

white.test <- function(x, ...) UseMethod("white.test")

white.test.ts <-
function(x, lag = 1, qstar = 2, q = 10, range = 4,
type = c("Chisq","F"), scale = TRUE, ...)
{
if(!is.ts(x))
stop("method is only for time series")
if(NCOL(x) > 1)
stop("x is not a vector or univariate time series")
if(any(is.na(x)))
stop("NAs in x")
if(lag < 1)
stop("minimum lag is 1")
if(!("package:stats" %in% search()) &&
!require("mva", quietly=TRUE))
stop("package", sQuote("mva"), "is needed. Stopping")
if(!missing(type) && !is.na(pmatch(type, "chisq"))) {
warning(paste("value `chisq' for `type' is deprecated,",
"use `Chisq' instead"))
type <- "Chisq"
}
else
type <- match.arg(type)
DNAME <- deparse(substitute(x))
t <- length(x)
if(scale) x <- scale(x)
y <- embed(x, lag+1)
xnam <- paste("y[,", 2:(lag+1), "]", sep="")
fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+")))
rr <- lm(fmla)
u <- residuals(rr)
ssr0 <- sum(u^2)
max <- range/2
gamma <- matrix(runif((lag+1)*q,-max,max),lag+1,q)
phantom <- (1+exp(-(cbind(rep(1,t-lag),y[,2:(lag+1)])%*%gamma)))^(-1)
phantomstar <- as.matrix(prcomp(phantom,scale=TRUE)$x[,2:(qstar+1)])
xnam2 <- paste("phantomstar[,", 1:qstar, "]", sep="")
xnam2 <- paste(xnam2, collapse="+")
fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"),
xnam2,sep="+")))
rr <- lm(fmla)



Lampiran 3. Lanjut an

185



v <- residuals(rr)
ssr <- sum(v^2)
if(type == "Chisq") {
STAT <- t*log(ssr0/ssr)
PVAL <- 1-pchisq(STAT,qstar)
PARAMETER <- qstar
names(STAT) <- "X-squared"
names(PARAMETER) <- "df"
save(PVAL, file = wpc.Rdata)
} else if(type == "F") {
STAT <- ((ssr0-ssr)/qstar)/(ssr/(t-lag-qstar))
PVAL <- 1-pf(STAT,qstar,t-lag-qstar)
PARAMETER <- c(qstar,t-lag-qstar)
names(STAT) <- "F"
names(PARAMETER) <- c("df1","df2")
save(PVAL, file = wpf.Rdata)
}
else
stop("invalid type")
ARG <- c(lag,qstar,q,range,scale)
names(ARG) <- c("lag","qstar","q","range","scale")
METHOD <- "White Neural Network Test"
structure(list(statistic = STAT,
parameter = PARAMETER,
p.value = PVAL,
method = METHOD,
data.name = DNAME,
arguments = ARG),
class = "htest")
}


















- 186 -
Lampiran 4 : Macro Studi Simulasi 1000 kali untuk keenam model
untuk uji Terasvirta dan uji White pada program R


## ---------------------------------------------------------------
##
## Macro studi simulasi 1000 kali untuk uji Terasvirta dan
## uji White pada keenam model data simulasi
##
## Author : Suhartono, S.Si., M.Sc.
## Mahasiswa S3 Statistika UGM
## Yogyakarta 2007
##
## ---------------------------------------------------------------

for (j in c(1:1000) )
{
n <- 400
x <- runif(400, -1, 1)
x[1] <- 0.0
x[2] <- 0.0
x1 <- x
x2 <- x
x3 <- x
x4 <- x
x5 <- x
x6 <- x
for(i in (3:n)) {
e <- rnorm(1, sd=0.5)
x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e
x2[i] <- x2[i-1] + e
x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e
x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] +
0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) +
0.1*e
x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] +
0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) +
0.1*e
x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e
}
x1 <- x1[201:400]
x1 <- as.ts(x1) ## Data model 1
x2 <- x2[201:400]
x2 <- as.ts(x2) ## Data model 2
x3 <- x3[201:400]
x3[101] <- 5
x3 <- as.ts(x3) ## Data model 3
x4 <- x4[201:400]
x4 <- as.ts(x4) ## Data model 4
x5 <- x5[201:400]
x5 <- as.ts(x5) ## Data model 5
x6 <- x6[201:400]
x6 <- as.ts(x6) ## Data model 6
wc <- white.test(x1,lag=2,type=c("Chisq"))
wf <- white.test(x1,lag=2,type=c("F"))
tc <- terasvirta.test(x1, lag=2, type=c("Chisq"))
tf <- terasvirta.test(x1, lag=2, type=c("F"))



Lampiran 4. Lanjut an

187



load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")
wc <- white.test(x2,lag=1,type=c("Chisq"))
wf <- white.test(x2,lag=1,type=c("F"))
tc <- terasvirta.test(x2, lag=1, type=c("Chisq"))
tf <- terasvirta.test(x2, lag=1, type=c("F"))
load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")
wc <- white.test(x3,lag=2,type=c("Chisq"))
wf <- white.test(x3,lag=2,type=c("F"))
tc <- terasvirta.test(x3, lag=2, type=c("Chisq"))
tf <- terasvirta.test(x3, lag=2, type=c("F"))
load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")
wc <- white.test(x4,lag=2,type=c("Chisq"))
wf <- white.test(x4,lag=2,type=c("F"))
tc <- terasvirta.test(x4, lag=2, type=c("Chisq"))
tf <- terasvirta.test(x4, lag=2, type=c("F"))
load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")
wc <- white.test(x5,lag=2,type=c("Chisq"))
wf <- white.test(x5,lag=2,type=c("F"))
tc <- terasvirta.test(x5, lag=2, type=c("Chisq"))
tf <- terasvirta.test(x5, lag=2, type=c("F"))
load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")



Lampiran 4. Lanjut an

188



wc <- white.test(x6,lag=1,type=c("Chisq"))
wf <- white.test(x6,lag=1,type=c("F"))
tc <- terasvirta.test(x6, lag=1, type=c("Chisq"))
tf <- terasvirta.test(x6, lag=1, type=c("F"))
load("wpc.Rdata")
cat(PVAL*1, " ")
load("wpf.Rdata")
cat(PVAL*1, " ")
load("tpc.Rdata")
cat(PVAL*1, " ")
load("tpf.Rdata")
cat(PVAL*1, " ")
}





- 189 -
Lampiran 5 : Contoh hasil jalannya macro pada keenam model

Run program R


R : Copyright 2002, The R Development Core Team
Version 1.5.0 (2002-04-29)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type `license()' or `licence()' for distribution details.

R is a collaborative project with many contributors.
Type `contributors()' for more information.

Type `demo()' for some demos, `help()' for on-line help, or
`help.start()' for a HTML browser interface to help.
Type `q()' to quit R.

[Previously saved workspace restored]



Setelah ada di program R
1. Ketik dan enter library(tseries)
2. Jalankan macro uji Terasvirta
3. Jalankan macro uji White


> library(tseries)
> ## -------------------------------------------------------------
> ## Uji Terasvirta untuk linearitas pada pemodelan time series
> ## Sumber : library(tseries) di R
> ## Author : A. Trapletti
> ## Modifikasi : Suhartono, S.Si., M.Sc.
> ## -------------------------------------------------------------

> terasvirta.test <- function(x, ...) UseMethod("terasvirta.test")
> terasvirta.test.ts <-
+ function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...)

+ }
>
> ## -------------------------------------------------------------
> ## Uji White untuk linearitas pada pemodelan time series
> ## Sumber : library(tseries) di R
> ## Author : A. Trapletti
> ## Modifikasi : Suhartono, S.Si., M.Sc.
> ## -------------------------------------------------------------

> white.test <- function(x, ...) UseMethod("white.test")
> white.test.ts <-

+ }
>


Lampiran 5. Lanjut an

190

Jalankan studi simulasi (berikut contoh untuk hasil dari keenam model dengan
hanya 1 kali pengulangan)
Keterangan : Angka yang keluar di akhir mac ro adalah output yang berupa
nilai p-value untuk setiap uji White dan uji Terasvirta, sec ara
berurutan (satu kali running menghasilkan 24 angka) adalah uji
White dengan statistik Chi-squares, F dan uji Terasvirta dengan
statistik Chi-squares dan F untuk model 1, 2, ..., 6 secara
berurutan.


> for (j in c(1:1) )
+ {
+ n <- 400
+ x <- runif(400, -1, 1)
+ x[1] <- 0.0
+ x[2] <- 0.0
+ x1 <- x
+ x2 <- x
+ x3 <- x
+ x4 <- x
+ x5 <- x
+ x6 <- x
+ for(i in (3:n)) {
+ e <- rnorm(1, sd=0.5)
+ x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e
+ x2[i] <- x2[i-1] + e
+ x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e
+ x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] +
+ 0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) +
+ 0.1*e
+ x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] +
+ 0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) +
+ 0.1*e
+ x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e
+ }

+ wc <- white.test(x6,lag=1,type=c("Chisq"))
+ wf <- white.test(x6,lag=1,type=c("F"))
+ tc <- terasvirta.test(x6, lag=1, type=c("Chisq"))
+ tf <- terasvirta.test(x6, lag=1, type=c("F"))
+ load("wpc.Rdata")
+ cat(PVAL*1, " ")
+ load("wpf.Rdata")
+ cat(PVAL*1, " ")
+ load("tpc.Rdata")
+ cat(PVAL*1, " ")
+ load("tpf.Rdata")
+ cat(PVAL*1, " ")
+ }
0.7210663 0.8661705 0.7357942 0.7527205 0.04703406 0.3828929
0.2310951 0.2362294 4.1301e-06 1.133555e-05 1.736178e-08
3.615592e-08 0.1765474 0.3807794 0.0003243584 0.0004675579
0.04960447 0.01884139 0.001494970 0.002028959 0 0 0 0 >
>




- 191 -
Lampiran 6 : Macro NNETM yang digunakan untuk mendapatkan
model FFNN pada program S-plus


## ---------------------------------------------------------------
##
## Macro NNETM, modifikasi dari NNET, yang digunakan untuk
## mendapatkan model FFNN pada peramalan data time series
##
## Sumber : http://www.stat.lsa.umich.edu/~faraway/
## Author : J. Faraway and C. Chatfield (1998)
## Modifikasi : Suhartono, S.Si., M.Sc.
## Mahasiswa S3 Statistika UGM
## Yogyakarta 2007
##
## ---------------------------------------------------------------

nnetm <- function(x,y,size,retry=1,maxit=2000,
trace=F,nntrace=F,...)
{
x <- x
y <- y
HUGE <- 1e37
minval <- HUGE
rang <- 1/max(abs(x))
for(i in 1:retry){
g <- nnet(x,y,size=size,rang=rang,linout=F,maxit=maxit,
softmax=T,trace=nntrace,...)
if (trace)
{
if (min(eigen(nnet.Hess(g,x,y))$val) < 0)
cat("Try ",i,": SS=",round(g$val,3),"(Possible non-minimum)\n")
else
cat("Try ",i,": SS=",round(g$val,3),"\n")
}
if ( g$val < minval)
{
gbest <- g
minval <- g$val
}
}
if ( minval == HUGE)
error("Minimum not found")
gbest$x <- x
gbest$y <- y
if(trace)
cat ("Minimum SS = ",round(gbest$val,3)," in ",retry, "attempts\n")
structure(gbest, class = c("nnts","nnet"))
}


print.nnetm <- function(net)
{
if(!inherits(net, "nnetm"))
stop("Not legitimate a neural net/ time series fit")
if(length(net) == 10)
net$softmax <- F


Lampiran 6. Lanjut an

192



cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network",
sep = "")
cat(" with", length(net$wts), "weights\n")
cat("options were -")
tconn <- diff(net$nconn)
if(tconn[length(tconn)] > net$n[2] + 1)
cat(" skip-layer connections ")
if(net$decay > 0)
cat(" decay=", net$decay, sep = "")
cat("\n")
}


summary.nnetm <- function(net)
{
if(!inherits(net, "nnetm"))
stop("Not legitimate a neural net/time series fit")
if(length(net) == 10)
net$softmax <- F
cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network",
sep = "")
cat(" with", length(net$wts), "weights\n")
tconn <- diff(net$nconn)
if(tconn[length(tconn)] > net$n[2] + 1)
cat(" skip-layer connections ")
if(net$decay > 0)
cat(" decay=", net$decay, sep = "")
cat("\n")
cat("Unit 0 is constant one input\n")
cat("Input units: ",paste("y ",net$y,"=",1:net$n[1],",",
sep=""),"\n")
cat("Hidden units are ",(net$n[1]+1):(net$n[1]+net$n[2]),"\n")
cat("Output unit is",sum(net$n),"\n\n")
wts <- format(round(net$wts, 4))
names(wts) <- apply(cbind(net$conn, rep(1:net$nunits - 1,
tconn)), 1,
function(x)
paste(x, collapse = "->"))
print(wts, quote = F)
cat("Sum of squares is ",format(net$val),"\n")
n <- length(net$fit)
p <- length(net$wts)
ft <- n*log(net$val/n)
cat("AIC :",format(ft+2*p),
", SBC :",format(ft+p*log(n)),
", BIC :",format(ft+p+p*log(n)),
", MSE :",format(net$val/(n-p)),
", residual se :",format(sqrt(net$val/(n-p))),"\n")
invisible()
}




- 193 -
Lampiran 7 : Macro yang digunakan untuk mendapatkan model
FFNN terbaik pada program S-plus melalui inferensia
R
2
incremental
dan uji Wald


## ---------------------------------------------------------------
##
## Macro yang digunakan untuk mendapatkan model FFNN terbaik
## pada peramalan data time series melalui inferensia R
2
incremental
##

dan uji Wald
##
## Author : Suhartono, S.Si., M.Sc.
## Mahasiswa S3 Statistika UGM
## Yogyakarta 2007
##
## ---------------------------------------------------------------

library(nnet) # Jalankan command-command ini untuk
addNnetMenus() # memulai bekerja NNET di S-plus
library(MASS)
addMassMenus()

## ---------------------------------------------------------------

## Jalankan macro nnetm (NNET modifikasi), yang terdiri dari nnetm,
print.nnetm, summary.nnetm)

## ---------------------------------------------------------------

## Data simulasi, dengan nama file ESTAR1, sudah tersimpan di S-plus

y.all <- cbind(estar1[,1])
y1.all <- cbind(estar1[,2])
y2.all <- cbind(estar1[,3])
y3.all <- cbind(estar1[,4])
y4.all <- cbind(estar1[,5])
y5.all <- cbind(estar1[,6])
y6.all <- cbind(estar1[,7])

y.train <- cbind(y.all[1:100]) # Data training
y.test <- cbind(y.all[101:120]) # Data testing
y1.train <- cbind(y1.all[1:100])
y1.test <- cbind(y1.all[101:120])
y2.train <- cbind(y2.all[1:100])
y2.test <- cbind(y2.all[101:120])
y3.train <- cbind(y3.all[1:100])
y3.test <- cbind(y3.all[101:120])
y4.train <- cbind(y4.all[1:100])
y4.test <- cbind(y4.all[101:120])
y5.train <- cbind(y5.all[1:100])
y5.test <- cbind(y5.all[101:120])
y6.train <- cbind(y6.all[1:100])
y6.test <- cbind(y6.all[101:120])

x.train <- cbind(y1.train,y2.train,y3.train,y4.train,y5.train,y6.train)
x.test <- cbind(y1.test,y2.test,y3.test,y4.test,y5.test,y6.test)

## ---------------------------------------------------------------


Lampiran 7. Lanjut an

194



## Program NNETM dengan membagi data menjadi data training
## dan data testing atau out-sample forecast
## Data ESTAR1 dengan input lag 1,2,...,6
##
## ---------------------------------------------------------------

hasil.train <- nnetm(x.train, y.train, size=2, retry=50, linout=T,
maxit=10000, trace=T, abstol=1.0e-6, reltol=1.0e-6)

summary(hasil.train) # Training output

y.hat <- predict.nnet(hasil.train, x.train) # Prediksi training
rxy.train <- cor(y.train,y.hat) # Korelasi y Vs y.hat
rxy2.train <- rxy.train*rxy.train

er.train <- y.train - y.hat # Residual training
sse.train <- sum(er.train*er.train) # Nilai SSE training
mse.train <- sse.train/100 # Nilai MSE training
rmse.train <- sqrt(mse.train) # Nilai RMSE training
mae.train <- sum(abs(er.train))/100
mape.train <- sum(abs(er.train/y.train))/100*100

aic <- (100*log(mse.train))+(2*49) # 49 = jumlah parameter
sic <- (100*log(mse.train))+(49*log(100))
R2.inc <- rxy2.train-0.987999 # 0.987999 = R
2
sebelumnya

mhess <- nnet.Hess(hasil.train, x.train, y.train)
invhess <- solve(mhess)
varb<-0.267511*invhess # Matriks var-cov(b)

crit.train <- cbind(mse.train,rmse.train,mae.train,mape.train)
r.train <- cbind(aic,sic,rxy.train,rxy2.train,R2.inc)
crit.train
r.train

y.fore <- predict.nnet(hasil.train,x.test) # Prediksi testing
rxy.out <- cor(y.test,y.fore)
rxy2.out <- rxy.out*rxy.out

er.out <- y.test - y.fore # Residual testing
sse.out <- sum(er.out*er.out) # Nilai SSE testing
mse.out <- sse.out/20 # Nilai MSE testing
rmse.out <- sqrt(mse.out) # Nilai RMSE testing
mae.out <- sum(abs(er.out))/20
mape.out <- sum(abs(er.out/y.test))/20*100

crit.out <- cbind(mse.out,rmse.out,mae.out,mape.out)
r.out <- cbind(rxy.out,rxy2.out)
crit.out
r.out

## Aktual, ramalan, dan error pada training dan testing

compar.train <- cbind(y.train,y.hat,er.train)
compar.test <- cbind(y.test,y.fore,er.out)
compar.train
compar.test



- 195 -
Lampiran 8 : Data-data empiris

Data inflasi Indonesia, periode Januari 1999 April 2005
(Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)


1.16 1.31 0.57 1.69 0.49 0.16 0.71 0.32 0.38
0.64 0.42 0.79 2.16 1.71 -0.61 0.78 0.06 -0.07
0.68 0.27 -0.04 0.41 0.57 0.55 1.03 1.05 -0.12
0.56 0.19 -0.17 0.66 0.88 1.29 1.99 1.65 1.68
6.88 12.76 5.49 4.70 5.24 4.64 8.56 6.30 3.75
-0.27 0.08 1.33 2.97 1.26 -0.18 -0.68 -0.28 -0.34
-1.05 -0.93 -0.68 0.06 0.25 1.73 1.32 0.07 -0.45
0.56 0.84 0.50 1.28 0.51 -0.06 1.16 1.32 1.94
0.33 0.87 0.89 0.46 1.13 1.67 2.12 -0.21 0.64
0.68 1.71 1.62 1.99 1.50 -0.02 -0.24 0.80 0.36
0.82 0.29 0.53 0.54 1.85 1.20 0.80 0.20 -0.23
0.15 0.21 0.09 0.03 0.84 0.36 0.55 1.01 0.94
0.57 -0.02 0.36 0.97 0.88 0.48 0.39 0.09 0.02
0.56 0.89 1.04 1.43 -0.17 1.91 0.34



Data Airline, periode Januari 1949 Desember 1960
(Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)


112 118 132 129 121 135 148 148 136 119 104 118 115
126 141 135 125 149 170 170 158 133 114 140 145 150
178 163 172 178 199 199 184 162 146 166 171 180 193
181 183 218 230 242 209 191 172 194 196 196 236 235
229 243 264 272 237 211 180 201 204 188 235 227 234
264 302 293 259 229 203 229 242 233 267 269 270 315
364 347 312 274 237 278 284 277 317 313 318 374 413
405 355 306 271 306 315 301 356 348 355 422 465 467
404 347 305 336 340 318 362 348 363 435 491 505 404
359 310 337 360 342 406 396 420 472 548 559 463 407
362 405 417 391 419 461 472 535 622 606 508 461 390
432




Lampiran 8. Lanjut an

196

Data produksi minyak di tiga lokasi pengeboran, 60 data pengamatan
(Petunjuk: Data ini sudah dilakukan pemrosesan awal data. Baca mulai dari kiri ke
kanan dan seterusnya)

Data pada lokasi 1


-0.054 0.330 0.424 -0.523 -1.491 -0.246 0.312 0.506
1.603 0.630 2.099 0.502 0.641 0.336 0.530 0.706
0.093 0.320 0.306 1.402 1.662 3.543 1.325 0.990
0.673 -0.303 -0.238 -0.203 -0.333 0.005 0.026 -0.605
0.481 0.340 0.892 0.510 1.135 0.197 -0.205 0.588
-0.160 -1.248 -0.599 -0.076 -1.457 -1.806 -1.843 -1.026
-0.699 -0.538 -0.989 -1.122 -1.436 -0.785 -0.225 -1.028
-1.014 -1.050 -0.713 -1.091



Data pada lokasi 2


0.343 -1.192 -1.351 -0.969 -0.699 0.828 -0.199 0.455
0.361 0.381 -0.164 -0.981 -0.719 -1.318 -0.653 -0.067
1.453 1.788 2.486 3.109 1.502 -0.183 0.832 1.599
1.442 0.457 0.599 -0.335 0.376 0.493 -0.813 0.968
-0.194 -0.529 -0.252 -1.130 -0.652 0.914 0.074 0.240
0.750 0.850 0.224 -0.016 1.506 -0.467 -1.038 -0.776
-0.335 -0.606 -1.132 -0.853 -1.503 -1.203 -1.018 -0.840
-0.756 -0.912 0.074 -0.249



Data pada lokasi 3


2.350 1.615 1.509 1.279 0.760 1.365 1.358 2.259
0.554 0.475 1.003 0.720 0.589 0.625 2.055 1.793
2.328 0.728 0.677 0.512 -0.080 -0.313 -0.299 -0.379
0.042 -0.325 -0.259 -0.188 -0.428 -0.409 -0.372 -0.409
-0.544 -1.099 -0.240 -0.855 -0.237 -0.516 -0.318 -0.533
-0.612 -0.644 -1.031 -0.830 -1.024 0.204 -1.144 -1.356
-1.479 -0.470 -0.996 -1.072 -0.822 -0.680 -0.688 -0.734
-0.842 -0.795 -0.715 -1.063


- - 197
DAFTAR RIWAYAT HIDUP


Nama Lengkap : Suhartono, S.Si., M.Sc.
Jenis kelamin : Laki-laki
Tempat dan tanggal lahir : Kemiri, 29 September 1971
Pangkat / Gol. / NIP : Penata / IIIC / 132 135 220
Jabatan Fungsional : Lektor

RIWAYAT PENDIDIKAN TINGGI :
Sarjana Statistika, FMIPA, Institut Teknologi Sepuluh Nopember, 1995.
Master of Science in Statistics, University of Manchester Institute of
Science and Technology (UMIST), UK, 1998.

RIWAYAT PEKERJAAN :
Dosen tetap di Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh
Nopember, sejak 1995 sampai sekarang.

PUBLIKASI 4 TAHUN TERAKHIR (SELAMA MENGIKUTI PROGRAM S3) :
Jurnal Ilmiah Internasional
1. Suhartono and Subanar (2006). The Optimal Determination of Space
Weight in GSTAR Model by using Cross-correlation Inference.
JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The
Mathematical and Statistical Application in Various Fields, Vol. 2,
No. 2, pp. 45-53. (ISSN: 1693-5098)
2. Suhartono, Subanar and Guritno, S. (2006). Model Selection in Neural
Networks by Using Inference of R
2
Incremental
, PCA, and SIC Criteria for
Time Series Forecasting, JOURNAL OF QUANTITATIVE METHODS:
Journal Devoted to The Mathematical and Statistical Application in
Various Fields, Vol. 2, No. 1, pp. 41-57. (ISSN: 1693-5098)

Jurnal Ilmiah Nasional
1. Suhartono and Subanar (2007). Some Comments on the Theorem
Providing Stationarity Condition for GSTAR Models in the Paper by
Borovkova et al. Journal of The Indonesian Mathematical Society
(MIHMI), Vol. 13, No. 1, pp. 44-52. (ISSN: 0854-1380)
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
Daft ar Riwayat Hidup 198

2. Suhartono (2006). Calendar Variation Model for Forecasting Time
Series Data with Islamic Calendar Effect. Jurnal Matematika, Sains, &
Teknologi, Vol. 7, No. 2, hal. 85-94. (ISSN: 1411-1934)
3. Subanar dan Suhartono (2006). Uji linearitas tipe Lagrange Multiplier
dengan ekspansi Taylor untuk deteksi hubungan nonlinear pada data
time series, Journal of the Indonesian Mathematical Society (MIHMI),
Vol. 12, No. 1, hal. 17-32. (ISSN: 0854-1380)
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
4. Suhartono and Subanar (2006). The Effect of Decomposition Method
as Data Preprocessing on Neural Networks Model for Forecasting
Trend and Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal
Keilmuan dan Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41.
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
5. Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for
Forecasting Indonesian Inflation. JURNAL WIDYA MANAJEMEN &
AKUNTANSI, Vol. 5, No. 3, pp. 45-65.
(Terakreditasi: SK Dirjen Dikti No. 23a/DIKTI/Kep./2004)
6. Suhartono, Subanar and Guritno, S. (2005). A Comparative Study
of Forecasting Models for Trend and Seasonal Time Series: Does
Complex Model Always Yield Better Forecast than Simple Models.
JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik
Industri, Vol. 7, No. 1, pp. 27-41.
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
7. Suhartono (2004). Evaluasi pembentukan model VARIMA dan STAR
untuk peramalan data deret waktu dan lokasi. Jurnal Matematika
Integratif, Vol. 3, No. 2, hal. 45-56. (ISSN: 1412-6184)
8. Suhartono (2007). Teori dan Aplikasi Model Intervensi Fungsi Pulse.
Diterima untuk dipublikasikan pada di Jurnal MatStat (Terakreditasi)
edisi Juli 2007, Universitas Bina Nusantara.

Seminar Internasional
1. Suhartono, Subanar and Guritno, S., Model Building in Neural
Networks for Time Series Forecasting by Using Inference of R
2

Incremental and SIC Criterion, Proceeding of The 2
nd
Information
and Communication Technology Seminar (ICTS), ITS, Surabaya,
August 2006, pp. 408-411. (ISSN: 1858-1633)
Daft ar Riwayat Hidup 199

2. Suhartono and Subanar, The Impact of Linearity test on Forecasting
Indonesian Inflation by Using Neural Networks, Proceeding of the
International Conference on Mathematics and Statistics (ICOMS),
Bandung Islamic University, Bandung, July 2006, pp. 565-574.
(ISBN: 978-979-16363-0-8)
3. Atok, R.M. and Suhartono, Model Selection in Neural Networks for
Calibration by using Incremental Contribution Inference, Proceeding of
the International Conference on Mathematics and Statistics (ICOMS),
Bandung Islamic University, Bandung, July 2006, pp. 225-228.
(ISBN: 978-979-16363-0-8)
4. Suhartono and Subanar, The Optimal Determination of Space Weight
in GSTAR Model by using Crosscorrelation Inference, Proceeding of
The 2
nd
IMT-GT Regional Conference on Mathematics, Statistics, and
Their Application (IRCMSA), Universiti Sains Malaysia, June 2006.
5. Subanar and Suhartono, Model Selection in Neural Networks by using
Inference of R
2
incremental and Principal Component Analysis for Time
Series Forecasting, Presented at The 2
nd
IMT-GT Regional Conference
on Mathematics, Statistics, and Their Application (IRCMSA), Universiti
Sains Malaysia, June 2006.
6. Suhartono and Subanar, Modeling of Financial Data by Using Feed-
forward Neural Networks, Proceeding of the International Conference
on Applied Mathematics (ICAM05), ITB, Bandung, August 2005.
7. Suhartono, Subanar and Guritno, S., The Impact of Data Preproces-
sing on Feedforward Neural Networks Model For Forecasting Trend and
Seasonal Time Series, Proceeding of the International Conference on
Applied Mathematics (ICAM05), ITB, Bandung, August 2005.
8. Subanar and Suhartono, Monte Carlo Simulation Study of The Neural
Network Linearity Test for Time Series, Proceeding of the Fourth Asian
Mathematical Conference (AMC2005), National University of Singapore,
20-23 July 2005.
9. Suhartono, Subanar and Rezeki, S., Feedforward Neural Networks
Model for Forecasting Trend and Seasonal Time Series, Proceeding of
The 1
st
IMT-GT Regional Conference on Mathematics, Statistics, and
Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera,
Indonesia, 13-15 June 2005, pp. 425-434. (ISBN: 979 458 230 - 1)
10. Suhartono, Rezeki, S., Subanar and Guritno, S., Optimization of
Backpropagation Algorithm of Feedforward Neural Networks for
Daft ar Riwayat Hidup 200

Regression and Time Series Modeling, Proceeding of The 1
st
IMT-GT
Regional Conference on Mathematics, Statistics, and Their Application
(IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia,
13-15 June 2005, pp. 415-434. (ISBN: 979 458 230 - 1)
11. Rezeki, S., Subanar, Guritno, S. and Suhartono, Empirical Study
to Compare Backpropagation Learning Optimization Methods for
Polychotomous Data, Proceeding of The 1
st
IMT-GT Regional
Conference on Mathematics, Statistics, and Their Application
(IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia,
13-15 June 2005, pp. 407-414. (ISBN: 979 458 230 - 1)
12. Suhartono and Subanar, The Neural Network Linearity Test for Time
Series Modeling, Proceeding of the International Conference on
Statistics and Mathematics and Its Applications in the Development of
Science and Technology, Bandung Islamic University, Bandung, 4-6
October 2004, pp. 217-222. (ISBN: 979-99168-0-1)

Seminar Nasional
1. Suhartono dan Atok, R.M., Pemilihan bobot lokasi yang optimal pada
model GSTAR, Prosiding Konferensi Nasional Matematika XIII,
Universitas Negeri Semarang, 24-27 Juli 2006, hal. 571-580.
(ISBN: 979-704-457-2)
2. Suhartono dan Atok, R.M., Perbandingan antara model VARIMA dan
GSTAR untuk peramalan data deret waktu dan lokasi, Prosiding
Seminar Nasional Statistika VII, ITS, Surabaya, 2005.
3. Suhartono, Subanar dan Guritno, S., Uji Linearitas untuk Deteksi
Hubungan Nonlinear pada Model Regresi, Prosiding Seminar Nasional
Matematika dan Informatika, Universitas Sebelas Maret, Surakarta,
7 Mei 2005, hal. 90-99. (ISBN: 979-99529-0-5)
4. Suhartono dan Putra, I.N.A.W.W., Dampak Tragedi Bom Bali terhadap
Tingkat Hunian Kamar Hotel Berbintang Lima di Bali (Studi Aplikasi
Model Intervensi pada Sektor Pariwisata), Prosiding Konferensi
Nasional Matematika XII, Universitas Udayana, Bali, 23-27 Juli 2004,
hal. 532-542. (ISBN: 979-99592-0-9)
5. Zuhdi, A.Y. dan Suhartono, Manfaat Penggunaan Diagram Venn
dalam Pembelajaran Model Regresi dan Autoregresi, Prosiding
Konferensi Nasional Matematika XII, Universitas Udayana, Bali,
23-27 Juli 2004, hal. 532-542. (ISBN: 979-99592-0-9)

You might also like