Professional Documents
Culture Documents
A Wavelets Based Approach For Time Series Mining
A Wavelets Based Approach For Time Series Mining
Tìm bản gốc tại thư mục này (copy link và dán hoặc nhấn Ctrl+Click):
https://drive.google.com/folderview?id=0B4rAPqlxIMRDSFE2RXQ2N3FtdDA&usp=sharing
Liên hệ để mua:
Giá tiền: 1 nghìn /trang đơn (trang không chia cột); 500 VND/trang song ngữ
2.6 Second Order DWT Statistical Analysis 2.6 Phân tích thống kê DWT bậc hai 37
37 2.7 Sự tự đồng dạng và phụ thuộc thời gian
2.7 Self-similarity and Long-Range dài 40
Dependence 40
Self-similarity: có thể dịch là tự tƣơng đồng
2.8 The Estimation of Hurst Parameter
2.8 Ƣớc tính tham số Hurst 43
43
2.8.1 Time Domain Estimators 44 2.8.1 Ƣớc tính miền Thời gian 44
2.8.2 Frequency Domain Estimators 46
2.9 Conclusions 52 2.8.2 Ƣớc tính miền tần số 46
2.9 Kết luận 52
3 Time-series Mining. Application to Khai thác các chuỗi thời gian.Ứng dụng để
Forecasting 54 dự báo 54
3.22 Modeling the variability of the traffic 3.22 Mô hình hóa sự thay đổi lƣu lƣợng tin
76 76
3.23 The trajectory for the long-term forecasts 3.23 Quỹ đạo cho các dự báo dài hạn 77
77
3.24 Main steps followed in our algorithm 3.24 Các bƣớc chính tiếp theo trong thuật
79 toán của chúng tôi 79
1 The values of H corresponding to all 66
BSs, daily series in downlink. The Hurst 1 Các giá trị của H tƣơng ứng với tất cả 66
parameter’s values bigger than 0,5 are BSS, các chuỗi hàng ngày trong
representsed in black 102 downlink.Các giá trị tham số Hurst lớn hơn
H 0,5 đƣợc biểu diễn màu đen 102
3 The LRD comportment of the considered 3 Đặc tính LRD của các mạng WiMAX
WiMAX network 104 đang xét 104
Our approach is based on the traffic analysis in Phƣơng pháp của chúng tôi là phân tích lƣu
a WiMAX network, composed by sixtv- seven lƣợng thông tin tại một mạng WiMAX bao
BSs, for a time interval of eight weeks. Taking gồm 67 trạm gốc trong khoảng thời gian là
into consideration the high volume of 8 tuần. Để xem xét một lƣợng thông tin lớn
information, a data-mining approach was nhƣ vậy thì phƣơng pháp khai thác dữ liệu
preferred. It is based on the Cross Industry là tốt hơn cả. Phƣơng pháp này dựa trên
Standard Process for Data Mining (CEISP-DM) quy trình chuẩn tham chiếu công nghiệp cho
methodology. This methodology is applied in khai thác dữ liệu CISP-DM. Phƣơng pháp
the present thesis to extract information, to này đƣợc áp dụng trong luận văn nhằm trính
interpret it and to propose solutions. The xuất thông tin, giải mã thông tin và đề ra
selection of traffic as object of analysis is giải pháp. Chúng tôi lựa chọn lƣu lƣợng làm
justified by the following reasons: đối tƣợng nghiên cứu vì những lý do sau:
1, It can be measured, 1, Có thể đo đƣợc lƣu lƣợng
2, Using planning and exploitation 2, Sử dụng những chiến lƣợc khai thác và
strategies, it allows the increasing of the hoạch định giúp nâng cao hiệu suất của
performance of the network (especially in the mạng (đặc biệt là trong truyền thông không
case of wireless communications such as the dây nhƣ công nghệ WiMAX)
WiMAX technology).
This selection oriented the thesis toward the Chọn lựa này hƣớng luận văn theo nghiên
research of time series analysis methods. Time cứu phƣơng pháp phân tích chuỗi thời gian.
series analysis has become a challenging issue Phân tích chuỗi thời gian đã và đang là một
for many researchers. Its origins can be found thách thức đối với rất nhiều nhà nghiên cứu.
in mathematical research but today time series Khởi nguồn của phƣơng pháp này có thể
analysis is a multi-disciplinary field exploiting
results obtained in mathematics, statistical đƣợc tìm thấy trong các nghiên cứu toán
signal processing, data mining, or engineering. học, nhƣng ngày nay, phân tích chuỗi thời
This is the reason why the present thesis has a gian là một lĩnh vực đa ngành, khai thác kết
multi-disciplinary character as well, integrating quả trong toán học, xử lý tín hiệu thống kê,
the competences in informatics from the khai thác dữ liệu hay kỹ thuật. Đó là lý do
department LUSSI of Telecom Bretagne, Brest, tại sao luận văn này cũng mang tính chất đa
France with the competences in ngành, kết hợp khản năng tin học từ phòng
communications from the Communications LUSSI (Logics in Uses, Social Science and
department of the Electronics and
Information Science – Thiết kế máy tính
Telecommunications Faculty of "Politehnica"
University from Timisoara, Romania, trong ứng dụng, Khoa học xã hội và Khoa
học máy tính) của viễn thông Bregtagne,
Brest, Pháp và viễn thông từ phòng truyền
thông thuộc khoa Điện tử và Viễn Thông
của trƣờng Đại học Bách Khoa Timisoara,
Romania.
One of the major difficulties of the analysis of Một trong những khó khăn chủ yếu của việc
time-series with long length (which correspond phân tích chuỗi thời gian dài (tƣơng ứng với
to large amount of data) is the big một lƣợng dữ liệu lớn) đó là mức độ phức
computational complexity involved. The tạp trong tính toán. Có thể giảm thiểu độ
computational complexity can be reduced by phức tạp đó bằng cách trình bày dữ liệu theo
representing the data in a more favorable form. một cách thuận lợi hơn. Chuẩn bị dữ liệu là
One of the phases of the CRISP-DM một trong những bƣớc của phƣơng pháp
methodology, namely data preparation, CRISP-DM, đƣa ra một biểu diễn dữ liệu
supposes data representation in a more theo kiểu thuận lợi hơn. Có thể sử dụng các
favorable form. Such a representation can be wavelet để có đƣợc một biểu diễn nhƣ vậy.
obtained using wavelets, A discrete wavelet Một phép biến đổi wavelet rời rạc (DWT)
transform (DWT) of the time-series is sparse của chuỗi thời gian rất hiếm và có mức độ
and involves a reduced computational phức tạp trong tính toán ít hơn. Biến đổi
complexity. The Wavelet Transform has been
wavelet đã đƣợc sử dụng cho phân tích
used for time series analysis in many papers in
chuỗi thời gian trong rất nhiều nghiên cứu
recent years [AFTV03], [PTZD03], [RMBS10],
trong những năm gần đây. AFTV03],
[RSML10], [SMLI10], [WS02]. One of the
main properties of wavelets is that they are [PTZD03], [RMBS10], [RSML10],
localized in time (or space) which makes them [SMLI10], [WS02]. Một trong những đặc
suitable for the analysis of non-stationarv tính chính của wavelet đó là chúng bị cục bộ
signals (signals containing transients and fractal hóa theo thời gian (hoặc không gian), vì vậy
structures). mà chúng phù hợp cho việc phân tích các
tín hiệu không tĩnh (những tín hiệu ngắn
hạn và có cấu trúc fractan)
The research framework associated with the Cấu trúc của luận văn này gồm những trọng
present thesis has the following axes: tâm sau:
As it was already said, the goal of this thesis is Nhƣ đã đƣợc đề cập ở trên, mục tiêu của
to answer the question "It is possible to identify luận văn này là trả lời câu hỏi ―Có thể xác
the BSs which are bad positioned in a WiMAX định đƣợc những trạm gốc đƣợc đặt sai vị
network topology by traffic analysis?" trí trong một tôpô mạng WiMAX bằng phân
Assuming that the traffic associated with a BS tích lƣu lƣợng hay không?‖ Giả thiết rằng
bad positioned is heavier than the traffic lƣu lƣợng của trạm gốc sai vị trí lớn hơn lƣu
associated with a BS well positioned, two lƣợng của trạm gốc đúng vị trí, hai phƣơng
approaches for the appreciation of the pháp để đánh giá lƣu lƣợng đƣợc đƣa ra.
heaviness of the traffic were developed. The
Phƣơng pháp thứ nhất dựa trên giả thiết
first approach is based on the supposition that a
rằng một trạm gốc có lƣu lƣợng lớn sẽ giảm
BS with heavy traffic has a reduced risk of
nguy cơ bị bão hòa. Vì vậy, cần đánh giá
saturation. Hence, it is necessary to appreciate
the risk of saturation of each BS, This is nguy cơ bão hòa của mỗi trạm gốc. Tức là
equivalent with the estimation of the moment đồng nghĩa với việc xác định thời điểm trạm
when the BS will saturate. So, the first gốc bão hòa. Vì vậy, mục tiêu trƣớc hết của
objective of this thesis is to propose an luận văn là đề xuất một phƣơng pháp dự
approach for predicting time series. There are đoán chuỗi thời gian. Có hai hình thức dự
two types of prediction on short term and on đoán trong ngắn hạn và dài hạn. Cả hai hình
long term. Both can be done in the wavelets thức này đều có thể đƣợc thực hiện trong
domain with the aid of a multiple resolution miền wavelets với sự trợ giúp của phép
decomposition of the signal using the phân tích đa phân giải của tín hiệu, sử dụng
Stationary Wavelet Transform (SWT), It is SWT (biến đổi wavelets tĩnh). Tiếp đó là
followed by an Autoregressive Integrated mô hình trung bình trƣợt kết hợp tự hồi quy
Moving Average (ARIMA) modeling in the ARIMA trong trƣờng hợp dự đoán dài hạn
case of long term prediction or by the hoặc bằng việc ứng dụng các mô hình hệ
utilization of Neural Networks (NN) in the case
thống nơron (Neural Networks - NNs) trong
of short term prediction. These two types of
prediction were compared in some companion trƣờng hợp dự đoán ngắn hạn. Hai hình thức
papers which were elaborated in the department dự đoán này đƣợc so sánh trong một số
LUSSI from Telecom Bretagne, showing the nghiên cứu tƣơng tự tại phòng LUSSI from
superiority of NNs for short term prediction. Telecom Bretagne, cho thấy sự vƣợt trội của
Taking into consideration the fact that the NNs đối với dự đoán ngắn hạn. Nếu xem
moment of saturation could be situated far in xét việc thời điểm bão hòa có thể ở tƣơng
the future we have preferred in this thesis the lai xa thì phƣơng pháp dự đoán dài hạn dựa
long term prediction approach based on trên ARIMA đƣợc chúng tôi ƣa thích hơn
ARIMA, Applied to all the traces from our trong luận văn này. Phƣơng pháp này đƣợc
database, this approach allowed a first áp dụng cho tất cả các vết (traces) trong cơ
classification of BSs from the heaviness of sở dữ liệu của chúng tôi, cho phép phân loại
traffic point of view, presented at the end of các trạm gốc theo lƣu lƣợng, và đƣợc trình
Chapter 3. bày ở cuối Chƣơng 3.
The second approach for the appreciation of the Phƣơng pháp thứ 2 để đánh giá heaviness
heaviness of the traffic is based on Long Range của lƣu lƣợng tin dựa trên phân tích tính
Dependence (LRD) analysis. This is a relative phụ thuộc nhau thời gian dài ( Long Range
new statistical concept in communication Dependence – LRD) Đây là một khái niệm
traffic analysis and can be implemented using thống kê tƣơng đối mới trong phân tích lƣu
wavelets as well, LRD is introduced in Chapter lƣợng truyền thông và cũng có thể đƣợc
2 in association with some of its estimators.
thực hiện bằng cách sử dụng các wavelet.
The estimation of LRD degree is realized
LRD đƣợc giới thiệu trong Chƣơng 2 cùng
trough the estimation of the Hurst parameter of
với một số ƣớc lƣợng của nó. Việc đánh giá
the time-series under analysis.
mức độ LRD đƣợc thực hiện thông qua
đánh giá thông số Hurst của chuỗi thời gian
đang đƣợc phân tích.
The wavelets have some properties: have good Wavelets có một số tính chất: có sự cục bộ
time-frequencv (time-scale) localization, can tần số thời gian (thời gian-thang độ) tốt, có
represent data parsimoniously, can be thể biểu diễn dữ liệu theo từng phần nhỏ, có
implemented with very fast algorithms and are thể đƣợc thực hiện với các thuật toán nhanh
well suited for building mathematical models of và phù hợp với việc xây dựng mô hình toán
data. The wavelet approach of signal analysis is của dữ liệu. Phƣơng pháp phân tích tín hiệu
also flexible in handling irregular data sets. wavelet khá linh hoạt trong việc xử lý các
Singularities and irregular structures often carry tập hợp dữ liệu bất thƣờng. Những cấu trúc
essential information in a signal. So, the CWT bất thƣờng và kỳ dị thƣờng mang những
has advantages over the STFT for representing thông tin quan trọng trong một tín hiệu. Vì
functions that have discontinuities and sharp vậy, CWT có lợi thế hơn STFT trong việc
peaks, and for accurately decomposing and biểu diễn các hàm gián đoạn và có đỉnh
reconstructing finite, non-periodic and/or non- nhọn cũng nhƣ trong việc phân tích một
stationarv signals. cách chính xác và tái cấu trúc (tái tạo)
những tín hiệu không tuần hoàn, xác định
và/hoặc không tĩnh.
The most interesting dissimilarity between Sự khác biệt đáng chú ý nhất giữa hai loại
these two kinds of transforms is that individual biến đổi này đó là, các hàm wavelet bị cục
wavelet functions are localized in time, Fourier bộ hóa theo thời gian, hàm sin và cô –sin
sine and cosine functions are not. This Fourier thì không. Đặc tính cục bộ hóa này
localization feature, along with wavelets cùng với cục bộ hóa wavelets trong tần số
localization in frequency, makes many khiến cho nhiều hàm và toán tử sử dụng
functions and operators using wavelets "sparse" wavelets trở nên ―thƣa thớt (rải mỏng ra)‖
when transformed into the wavelet domain. khi đƣợc biến đổi sang miền wavelets. Sự
This sparseness, in turn, results in a number of thƣa thớt này lại làm nảy sinh một số ứng
useful applications such as data compression, dụng hữu ích nhƣ nén dữ liệu, phát hiện các
detecting features in images, and removing đặc trƣng trong các ảnh và loại bỏ nhiễu
noise from time series. khỏi chuỗi thời gian.
Mathematically speaking, the CWT of a signal Nói theo toán học, CWT của một tín liệu
is a collection of scalar products which factors chính là một tập hợp các tích vô hƣớng với
are the analyzed signal and a family of các thành tố là tín hiệu đƣợc phân tích, họ
wavelets, defined in equation (1,5), All these wavelets, đƣợc định nghĩa trong phƣơng
wavelets are generated bv translations (see the trình (1.5). Tất cả những wavelet này đƣợc
index u in (1.5)) and dilations (see the index s) tạo ra bằng cách tịnh tiến (xem trong phụ
of the mother wavelets, ^ , Hence the CWT is a lục u (1.5)) và sự co giãn của wavelets mẹ,
bivariate function, having as variables u and s, ^. Vì vậy, CWT hàm hai biến số với các
One thing to remember is that the CWT has a biến u và s. Một điều cần ghi nhớ đó là
large set of possible kernels (mother wavelets). CWT có một tập hợp các nhân khả dĩ (các
Thus wavelet analysis provides immediate hàm wavelet mẹ). Vì thế, phân tích wavelet
access to information that can be obscured by giúp tiếp cận ngay với những thông tin mà
other time-frequencv methods such as Fourier có thể các phƣơng pháp thời gian-tần số
analysis. khác nhƣ phân tích Fourier không thể chỉ ra.
There are also some similarities between the Biến đổi do rời rạc hóa CWT và STFT cũng
transforms obtained by the discretization of the có một vài điểm tƣơng đồng. Các biến đổi
CWT and STFT, The discrete transforms rời rạc thu đƣợc bằng việc rời rạc hóa các
obtained by the discretization of continuous biến đổi liên tục đƣợc biểu diễn bằng ma
transforms are expressed by matrices. The trận. Tính chất toán học của các ma trận
mathematical properties of the matrices trong các biến đổi rời rạc có đƣợc bằng việc
involved in the discrete transforms obtained by làm rời rạc CWT và STFT là nhƣ nhau. .
the discretization of the CWT and STFT are Ma trận biến đổi nghịch đảo cho cả biến đổi
similar. The inverse transform matrix for both Fourier nhanh (FFT) và WT rời rạc chính là
the Fast Fourier Transform (FFT) and the chuyển vị của ma trận ban đầu. Kết quả là
discrete WT is the transposed of the original. cả hai biến đổi có thể đƣợc xem là sự quay
As a result, both transforms can be viewed as a trong không gian hàm. Đối với FFT, miền
rotation in functions space. For the FFT, this mới này chứa các hàm cơ bản là sin và cô-
new domain contains basis functions that are sin. Với WT thì miền mới bao gồm các hàm
sines and cosines. For the WT, this new domain cơ bản phức tạp hơn đƣợc gọi là wavelets
contains more complicated basis functions phân tích [Mal99]
called analyzing wavelets [Mal99],
1.2 Time-frequency Representations 1.2 Các biểu diễn thời gian-tần số
Fourier transform theory states that a given Lý thuyết biến đổi Fourier phát biểu rằng
function of time can be characterized either in một hàm thời gian cho trƣớc có thể đƣợc mô
time or in frequency (spectral) domain. The tả trong miền (phổ) tần số hoặc thời gian.
transformation of a signal x(t) between the time Biến đổi của một tín hiệu x(t) giữa miền
domain and the frequency domain can be done thời gian và tần số đƣợc thực hiện bằng việc
by computing the Fourier transform, Fourier tính toán biến đổi Fourier. Biến đổi Fourier
transform is indispensable as data analysis tool là một công cụ phân tích dữ liệu không thể
for stationary signals. But if we deal with non- thiếu đối với các tín hiệu tĩnh. Nhƣng đối
stationary signals the conventional Fourier với các tín hiệu không ổn định thì biến đổi
transform becomes inadequate. Fourier thông thƣờng lại không phù hợp.
Time-frequency (time-scale) representation Các kỹ thuật biểu diễn thời gian-tần số (thời
techniques overcome this problem as they are gian-mức tỷ lệ) đã giải quyết vấn đề nêu
capable of representing a given function of time trên bởi vì chúng có khả năng biểu diễn một
in both time and frequency domain hàm thời gian cho trƣớc trong cả miền thời
simultaneously. These kind of representations gian và tần số cùng một lúc. Những loại
aim to identify the parameters of a given signal: biểu diễn này hƣớng tới việc xác định các
the starting/ending moments, the energy or the thông số của một tín hiệu cho trƣớc: Thời
power, the instantaneous amplitude, the điểm khởi đầu/kết thúc, năng lƣợng/ công
instantaneous frequency, the instantaneous suất, biên độ tức thời, tần số tức thời, băng
frequency band, etc |IX98|. thông tần số tức thời, v.v |IX98|
In Figure 1,4 is presented an ideal time- Hình 1.4 trình bày một biểu diễn thời gian-
frequencv representation of a given signal x(t), tần số lý tƣởng của một tín hiệu nhất định
composed by three non-overlapping sinusoids x(t), đƣợc cấu thành bởi 3 đƣờng hình sin
with frequencies in increasing order, each one không chồng chéo nhau với tần số tăng dần,
truncated at its period. The representation is mỗi đƣờng hình sin bị truncated (chặt cụt) ở
done in three dimensional space having as chu kỳ của nó. Biểu diễn đƣợc thực hiện
dimensions the time, the frequency and the trong không gian ba chiều có các chiều,
amplitude. chiều thời gian, không gian và biên độ.
…………………………
This time-frequencv representation realizes the Biểu diễn thời gian-tần số này thực thi cục
perfect localization in time and frequency (the bộ hóa hoàn toàn theo thời gian và tần số
moments of time ti — t6 and the frequencies f1 (thời điểm ti – t6 và tần số f1 – f3 có thể
— f3 can be perfectly localized in the time- đƣợc cục bộ hóa hoàn toàn trong mặt phẳng
frequency plane). thời gian-tần số).
The projection of the time-frequencv Hình chiếu của biểu diễn thời gian-tần số
representation on the plane (A, t) represents the trên mặt phẳng (A,t) biểu diễn biểu đồ dao
oscillogram of the signal x(t) and allows the động của tín hiệu x(t) và cho phép phân tích
analysis of this signal in the time domain. The tín hiệu này trong miền thời gian. Hình
projection of the time-frequencv representation chiếu của biểu diễn thời gian-tần số trên mặt
on the plane (f, A) represents the ideal phẳng (f,A) biểu diễn quang phổ lý tƣởng
spectrum of x(t) and permits us to analyze the của x(t) là cho phép chúng ta phân tích tín
signal x(t) in the frequency domain, while the hiệu x9t) trong miền tần số trong khi đó
projection on the plane (f, t) represents the hình chiếu trên mặt phẳng (f,t) biểu diễn tần
instantaneous frequency ofx(t)and allows the số tức thời của x(t) và giúp phân tích x(t)
analysis of x(t) in the modulation domain. trong miền điều biến.
1,2, Time-frequency Representations 1.2. Biểu diễn thời gian-tần số
1.2.1 The Effective Duration and Effective 1.2.1 Khoảng thời gian hiệu dụng và băng
Bandwidth thông hiệu dụng
In [IN98] it is highlighted, based on the duality Dựa trên tính nhị nguyên của biến đổi
of the Fourier transform, that signals perfectly Fourier, [IN98] đã nhấn mạnh rằng những
localized in time have an unlimited bandwidth, tín hiệu bị cục bộ hóa hoàn toàn theo thời
meaning that they are not localized in gian có băng thông không giới hạn, có nghĩa
frequency. As well, band limited signals have là chúng không bị cục bộ hóa trong tần số.
an infinite duration. Therefore, to measure Đồng thời, các tín hiệu giới hạn băng tần có
these quantities two concepts are used: the thời gian xung vô hạn. Vì vậy, để đo đƣợc
effective duration, at, and the effective hai đại lƣợng này, hai khái niệm sẽ đƣợc sử
frequency band au. A measure of the time- dụng là thời gian xung hiệu dụng, at, và
frequencv localization of a given signal can be băng thông hiệu dụng, au. Việc đo lƣờng sự
obtained bv the product a^ ■ of, [0109], cục bộ hóa thời gian – tần số của một tín
hiệu cho trƣớc có thể đƣợc thực hiện bằng
tích số a^ ■ của [0109]
Heisenberg uncertainty principle states that the Nguyên lý bất định Heisenberg phát biểu
following inequality is true: rằng bất đẳng thức sau đúng:
…………….(1.6) …………….(1.6)
The shorter is the effective duration of a signal, Phần ngắn hơn là thời gian xung hiệu dụng
the wider is its effective frequency band. In the của một tín hiệu, phần rộng hơn chính là
case of the WT, both time and frequency băng tần hiệu dụng của nó. Trong trƣờng
localizations depend on the scale factor s, hợp của WT, cả cục bộ hóa thời gian và tần
[IN98], The CWT can be stated as a scalar số đều dựa vào hệ số tỷ lệ s, [IN98]. CWT
product for every value of the scale factor s: có thể đƣợc coi là tích vô hƣớng với tất cả
các giá trị của hệ số tỷ lệ s:
If ^>(r) E K, we will have: Nếu ^>(r) E K, chúng ta sẽ có:
Therefore, for every s>0 the wavelet transform Vì vậy, với mỗi s>0 biến đổi wavelet của tín
of a signal x(t) represents the response of a hiệu x(t) biểu diễn đáp ứng của một hệ bất
linear time invariant system at x(t), having the biến thời gian tuyến tính tại x(t) có đƣờng
impulse response t/js(t). The system has the đặc trƣng xung lực (đáp ứng xung tức thời)
frequency response: t/js(t). Hệ thống có độ đáp ứng tần số:
……………………….. ………………………..
So, the temporal "window" ^s(t) is Vì vậy cửa sổ thời gian ^s(t) có nhiệm vụ
"responsible" for the temporal localization of cục bộ hóa thời gian của tín hiệu x(t) trong
the signal x(t), while the frequency "window" khi cửa sổ tần số F{^s(t)}(-w) cục bộ hóa
F{^s(t)}(-w) is "responsible" for the tần số, ở tỷ lệ s.
localization in frequency, at the scale s.
The effective duration and the effective Khoảng thời gian xung hiệu dụng và băng
bandwidth are: thông hiệu dụng là:
…………………… ……………………
where ta and wa represent the duration of the trong đó ta và wa tƣơng ứng biểu diễn thời
temporal "window", respective the bandwidth gian xung của cửa sổ thời gian, băng thông
of the frequency "window" associated to the của cửa sổ tần số gắn với các hàm wavelets
mother wavelets. See [IN98] for more mẹ. Hãy đọc [IN98] để tìm hiểu thêm về lý
theoretical details. thuyết.
It is noticed that the time localization is getting Chúng ta nhận thấy rằng sự cục bộ hóa thời
worse with the increasing of the factor s, while gian ngày càng kém hơn khi mức tỷ lệ s
frequency localization improves with the tăng, nhƣng cục bộ hóa tần số tăng khi s
increasing of s. tăng. Cũng nhƣ vậy, ………………(1.11)
Also,
………………(1.11)
Regardless of the value of s, the time-frequencv Bất kể giá trị của s, cục bộ hóa tần số- thời
localization determined by /s(t) is identical with gian đƣợc xác định qua /s(t) giống với cục
the one realized by the generating "window" bộ hóa tần số thời gian đƣợc thực hiện bởi
/(t) , cửa sổ phát sinh /(t)
In 101091 is stated that the Haar functions 101091 phát biểu rằng các hàm Harr (đƣợc
(defined in equation (1.24) and represented in xác định trong phƣơng trình (1.24) và đƣợc
Figure 1,9 c) have good time localization, but trình bày trong Hình 1.9 c) có cục bộ hóa
they have an infinite effective bandwidth, thời gian tốt nhƣng chúng có băng thông
meaning that they are not localized in hiệu dụng vô hạn, tức là chúng không đƣợc
frequency Contrary, cardinal sinus functions cục bộ hóa trong tần số. Ngƣợc lại, các hàm
have good frequency localization, but they have sin cơ bản có cục bộ hóa tần số tốt nhƣng có
an infinite duration. These two examples thời gian xung vô hạn. Đây là hai ví dụ cho
represent extreme cases, but between them thấy những trƣờng hợp quan trọng, nhƣng
there are mother wavelets (for example the giữa chúng có một hàm wavelets mẹ khác
elements of the Daubechies family) for which (ví dụ nhƣ các yếu tố của họ Daubechies)
the product gives finite values. These functions mà tích cho giá trị xác định. Những hàm này
have poorer time localization than Haar có cục bộ hóa thời gian kém hơn những hàm
functions and poorer frequency localization Harr nhƣng lại có cục bộ hóa tần số kém
than the cardinal sinus, but they provide a hơn hàm sin cơ bản nhƣng có ―sự thỏa hiệp‖
better time-frequency "compromise" than Haar thời gian-tần số tốt hơn các hàm Haar hay
or cardinal sinus functions. Some conclusions sin cơ bản. Từ |0109| có thể đƣa ra một số
can be drawn from |0109|: the effective kết luận nhƣ sau: Thời gian xung hiệu dụng
duration of Daubechies wavelets functions is của các hàm wavelets Daubechies bị ảnh
stronger influenced by the number of vanishing hƣởng mạnh hơn bởi số moment triệt tiêu
moments (we will define this term in Section (chúng tôi đã định nghĩa thuật ngữ này ở
1,6), than their effective bandwidth, meaning mục 1.6) so với băng thông hiệu dụng của
that it increases mono- tonically with the chúng, tức là nó tăng đơn trị theo số
number of vanishing moments (an opposite moment triệt tiêu (băng thông hiệu dụng thì
evolution is observed for the effective ngƣợc lại) và cục bộ hóa thời gian-tần
bandwidth) and the time-frequency localization sốcuar wavelets từ họ Daubechies cũng tăng
of wavelets from the Daubechies family đơn điệu với số moment triệt tiêu.
monotonically increases with the number of
vanishing moments.
1.2.2 Time-frequency Resolution Cell 1.2.2 Ô phân giải thời gian-tần số
We will present in the following a comparison Trong phần tiếp theo, chúng tôi sẽ so sánh
between Fourier Series and the CWT in terms chuỗi Fourier và CWT theo các biểu diễn
of time-frequency representations, Fourier thời gian-tần số. Chuỗi Fourier có tính chất
Series, have a very good frequency localization cục bộ hóa tần số tốt nhƣng không có cục
but they have not a localization in time. Figure bộ hóa thời gian. Hình 1.5 biểu diễn cục bộ
1,5 presents the time-frequency localization of hóa tần số thời gian của chuỗi Fourier,
Fourier Series, …………………………….
…………………………….
Figure 1,5: Time-frequency localization of the Hình 1.5 Cục bộ hóa thời gian-tần số của
Fourier Series. chuỗi Fourier
All the discrete frequencies which correspond Tất cả những tần số rời rạc tƣơng ứng với
to the harmonics of a periodic signal are sóng hài của một tín hiệu tuần hoàn đều cục
perfectly localized but there is no time bộ hóa tuyệt đối nhƣng không có cục bộ hóa
localization. All the harmonics already thời gian. Tất cả các sóng hài đã đƣợc đề
mentioned have infinite durations. The CWT, cập đều có thời gian xung vô hạn. Trái lại,
on the other hand, has a good frequency CWT có cục bộ hóa tần số tốt, cục bộ hóa
localization and poor time localization for low- thời gian kém đối với tần số thấp và cục bộ
frequencies, and poor frequency localization hóa tần số kém, cục bộ hóa thời gian tốt đối
and good time localization for high- với các tần số cao, nhƣ đƣợc biểu diễn ở
frequencies, as it can be seen in Figure 1,6, hình 1.6
Figure 1,6: Time-frequency localization of the Hình 1.6 Cục bộ hóa thời gian-tần số của
CWT, CWT
1.3 Theoretical Aspects of Wavelet 1.3 Các khía cạnh lý thuyết của biến đổi
Transform wavelet
There are two main types of wavelet transforms Có hai loại biến đổi Wavelet chính là – liên
- continuous and discrete. tục và rời rạc.
1.3.1 Continuous Wavelet Transform 1.3.1 Biến đổi wavelet liên tục
Any oscillating function with zero mean can be Bất kỳ một hàm số dao động nào có giá trị
a mother wavelet. The wavelet transform of f G trung bình bằng không có thể là một hàm
L2(^R) at time u and scale s, (1.6), is a wavelet mẹ. Biến đổi wavelet của f G
convolution of the mother wavelet function $ G L2(^R) tại thời điểm u và mức tỷ lệ s (1.6)
L2(R) with the function f G L2(R) : là tích chập của hàm wavelet mẹ $ G L2(R)
………………………… với hàm f G L2(R):
…………………………
By applying Parseval formula, we can also Bằng việc áp dụng công thức Parseval,
write (1.12) as: chúng ta cũng có thể viết (1.12) nhƣ sau:
……………………. (1.13) ……………………. (1.13)
The wavelet coefficients, Wf(u,s), depend on Các hệ số wavelet Wf(u,s) phụ thuộc vào tín
the signal f(t) and its spectrum f (u) in the time- hiệu f(t) và phổ của nó f(u) trong miền thời
frequencv region where the energy of $U,s and gian-tần số nơi mà năng lƣợng $U,s và $U,s
$U,s is concentrated. Since it has a zero tập trung. Bởi vì trung bình bằng không, nên
average, a wavelet coefficient Wf(u,s) hệ số wavelet Wf(u,s) đo đƣợc dao động
measures the variation of / in the neighborhood của/xung quanh u, có kích thƣớc tỷ lệ với s.
of u, whose size is proportional to s.
The wavelet transform maps a raw data Biến đổi wavelet đã ánh xạ dữ liệu thô
(observation of an underlying signal) into a (quan sát một tín hiệu cơ bản) vào tập hợp
collection of coefficients which provide the các hệ số cung cấp thông tin về đặc tính của
information on the behavior of the signal at tín hiệu ở thời điểm nhất định, trong một
certain point, during a certain time interval khoảng thời gian nhất định quanh thời điểm
around that point. The coefficients tell us what đó. Những hệ số cho chúng ta biết tín hiệu
the signal is doing and at what time. More đang ở thời điểm nào và ra sao. Chính xác
precisely, it measures the change of the local hơn, nó đo lƣờng những thay đổi của mức
average at a specific scale, around a specific trung bình cục bộ tại một mức tỷ lệ cụ thể,
moment. quanh một thời điểm cụ thể.
The translation parameter u relates to the Thông số dịch chuyển u có liên quan đến sự
location of the wavelet function as it is shifted cục bộ hóa của hàm wavelet vì nó dịch
along the signal, while the scale parameter s is chuyển cùng với tín hiệu, trong khi tham số
defined as the inverse of frequency. tỷ lệ s đƣợc định nghĩa là nghịch đảo của
tần số.
The main disadvantage of the CWT is that it is Nhƣợc điểm chính của CWT đó là nó đƣợc
computed for a large number of values both for tính với một lƣợng lớn các giá trị, tịnh tiến
the scale and for the translation, so it is a very và lấy tỷ lệ, vì vậy CWT là một biến đổi
redundant transform. Therefore, a discretization rƣờm ra. Vì thế, một phƣơng pháp rời rạc
of the scale and translation variables was hóa các biến tỷ lệ và dịch chuyển đã đƣợc
introduced. đƣa ra.
1.3.2 Biến đổi wavelet rời rạc
1.3.2 Discrete Wavelet Transform
The Discrete Wavelet Transform (DWT) is Biến đổi Wavelet rời rạc (DWT) thu đƣợc
obtained by the discretization of the CWT in bằng cách rời rạc hóa CWT trong mặt phẳng
the time-frequencv plane [Fla93] and is used to thời gian-tần số [Fla93] và đƣợc sử dụng để
decompose discrete time signals. The result phân tích các tín hiệu thời gian rời rạc. Kết
obtained at each decomposition level is quả thu đƣợc ở mỗi mức phân tích bao gồm
composed by two types of coefficients: hai loại hệ số: hệ số xấp xỉ và hệ số chi tiết.
approximation coefficients and detail Các hệ số xấp xỉ thu đƣợc bằng cách lọc
coefficients. The approximation coefficients are thông thấp chuỗi đầu vào, tiếp theo là lấy
obtained by low- pass filtering the input mẫu xuống . Các hệ số chi tiết thu đƣợc
sequence, followed by down-sampling. The bằng cách lọc thông cao chuỗi đầu vào, rồi
detail coefficients are obtained by high-pass lấy mẫu xuống. Chuỗi các hệ số xấp xỉ
filtering the input sequence followed by down- chính là đầu vào cho lần lặp tiếp theo. Mỗi
sampling. The sequence of approximation mức phân tích tƣơng ứng với một độ phân
coefficients constitutes the input for the next giải nhất định. Độ phân giải giảm khi tăng
iteration. Each decomposition level số mức phân tích. DWT là khả nghịch.
corresponds to a specified resolution. The Nghịch đảo của nó đƣợc đặt tên là DWT
resolution decreases with the increasing of the ngƣợc (IDWT). Ở mỗi mức phân giải,
number of decomposition levels. The DWT is chúng ta cần chuỗi xấp xỉ và chuỗi chi tiết
invertible. Its inverse is named Inverse DWT để tái tạo lại tín hiệu gần đúng từ mức phân
(IDWT), At each resolution level, the giải trƣớc đó. Biến đổi wavelet rời rạc có
approximation and the detail sequences are hai đặc trƣng: các hàm wavelet mẹ… và số
needed for the reconstruction of the mức phân tích. Các Wavelet rời rạc có thể
approximation signal from the previous đƣợc lấy tỷ lệ và đƣợc tịnh tiến trong các
resolution level. The Discrete Wavelet bƣớc rời rạc và biểu diễn wavelet nhƣ sau:
Transform has two features: the wavelet mother
^ and the number of decomposition levels.
Discrete wavelets can be scaled and translated
in discrete steps and a wavelet representation is
the following:
(1.14)
where j is the scale factor and n is the trong đó j là hệ số tỷ lệ và n là chỉ số dịch.
translation index.
Classical DWT is not shift invariant meaning DWT không phải là bất biến dịch (bất biến
that the DWT of a translated version of a signal đối với chuyển dịch) có nghĩa là DWT của
is not the same as the same translation of the một phiên bản tín hiệu đã dịch chuyển
DWT of the original signal. In order to achieve không giống nhƣ sự dịch chuyển DWT tín
shift-invarianee, several wavelet transforms hiệu ban đầu. Để đạt đƣợc bất biến dịch,
have been proposed. One of them is presented ngƣời ta đã nghĩ ra một số biến đổi wavelet.
in the following. Một trong số đó đƣợc trình bày trong phần
sau.
The Stationary Wavelet Transform (SWT) Biến đổi Wavelet tĩnh (SWT) khắc phục
overcomes the absence of translation invariance đƣợc tính chất thiếu bất biến dịch của DWT.
of the DWT, The SWT, also known as the SWT, còn đƣợc gọi là Biến đổi Wavelet rời
Undecimated Discrete Wavelet Transform rạc không bỏ một phần mƣời (UDWT) là
(UDWT) is a time-redundant version of the một phiên bản dƣ thừa thời gian của DWT
standard DWT [She92]. tiêu chuẩn [She92],
Không giống nhƣ các DWT lấy mẫu xuống
Unlike the DWT which down-samples the các hệ số xấp xỉ và các hệ số chi tiết tại mỗi
approximation coefficients and detail mức phân tích [Mal99], phƣơng pháp SWT
coefficients at each decomposition level không thực hiện lấy mẫu xuống, Điều này
[Mal99], in the case of SWT no down-sampling có nghĩa là các hệ số xấp xỉ và các hệ số chi
is performed, This means that the tiết tại mỗi mức có chiều dài tƣơng tự nhƣ
approximation coefficients and the detail tín hiệu ban đầu. Điều này quyết định số hệ
coefficients at each level have the same length số tăng ở mỗi mức tỷ lệ và tính chất cục bộ
as the original signal. This determines an hóa tín hiệu chính xác hơn. Thay vào đó,
increased number of coefficients at each scale các bộ lọc đƣợc lấy mẫu lên ở mỗi mức.
and more accurate localization of signal
features. Instead, the filters are up-sampled at
each level.
SWT có tính chất bất biến tịnh tiến hoặc
The SWT has the translation-invarianee, or
tính chất bất biến dịch. Vì vậy, SWT cho
shift-invarianee, property. Thus, the SWT gives
lƣợng thông tin nhiều hơn về tín hiệu
larger amount of information about the
chuyển đổi so với DWT. Một lƣợng lớn
transformed signal as compared to the DWT,
thông tin đặc biệt quan trọng khi sử dụng
Larger amount of information is especially
phƣơng pháp thông kê để phân tích các hệ
important when statistical approaches are used
số wavelet. Tính chất bất biến dịch chuyển
for analyzing the wavelet coefficients. The
là quan trọng trong các ứng dụng trích xuất
shift-invariant property is important in feature-
đặc trƣng, khử nhiễu và phát hiện.
extraction applications, denoising and
detection. SWT có thể đƣợc thực hiện bằng cách sử
The SWT can be implemented using the "a dụng một thuật toán "à trous", thuật toán
trous" algorithm, which will be detailed in a này sẽ đƣợc trình bày chi tiết trong phần
following section, sau.
1.4 Multiresolution Analysis 1.4 Phân tích đa phân giải
The multiresolution analysis (MRA) was Phân tích đa phân giải (MRA) do Stephane
introduced in 1988 by Stephane Mallat and Mallat và Yves Meyer [Mal99] giới thiệu
Yves Meyer [Mal99] and uses the wavelet vào năm 1988 và sử dụng biến đổi wavelet
transform to decompose a data series in a để phân tích một chuỗi dữ liệu trong một
cascade from the smallest scales to the largest tầng từ các mức tỷ lệ nhỏ nhất đến các mức
ones. Adapting the signal resolution allows one tỷ lệ lớn nhất. Làm thích ứng độ phân giải
to process only the relevant details for a tín hiệu cho phép chúng ta có thể chỉ cần xử
particular task. The MRA is a method for lý các chi tiết có liên quan đối với một
analyzing x(t), that takes into account its nhiệm vụ cụ thể. MRA là một phƣơng pháp
representation at multiple time resolutions. để phân tích x(t), phƣơng pháp này tính đến
biểu diễn của nó ở mức phân giải đa thời
gian.
data series: có thể dịch là ―nhóm dữ liệu‖
hoặc ―dãy dữ liệu‖
When the original signalx(t) is involved, the Khi tín hiệu ban đầu x(t) đƣợc sử dụng, độ
maximal resolution is exploited. When a phân giải cực đại đƣợc khai thác. Khi biến
variant of the original signal (for example the thể của tín hiệu ban đầu (chẳng hạn nhƣ tín
signal x(2t)) is used, then a poorer resolution is hiệu x(2t)) đƣợc sử dụng, thì độ phân giải
exploited. Combining few analysis realized at nghèo hơn đƣợc khai thác. Kết hợp một số
different resolutions, a MRA is obtained. The phân tích đƣợc thực hiện ở các độ phân giải
motivation of MRA is to use a sequence of khác nhau, chúng ta thu đƣợc một MRA.
embedded subspaces to approximate L2(K), Mục tiêu của MRA là sử dụng chuỗi các
allowing the selection of a proper subspace for không gian con nhúng để tính gần đúng
a specific application task, to get a balance L2(K), cho phép lựa chọn một không gian
between accuracy and efficiency. con thích hợp cho một nhiệm vụ ứng dụng
cụ thể, để đạt đƣợc sự cân bằng giữ độ
chính xác và hiệu suất.
Về mặt toán học, MRA biểu diễn một chuỗi
Mathematically, MRA represents a sequence of
các không gian con đóng Vj, KKT j xác
closed subspaces Vj, j E Z which approximate
định gần đúng L2 (K) và thỏa mãn các hệ
L2(K) and satisfy the following relations,
thức sau đây, [Mor97]:
[Mor97]:
………………………….. (1.16) có nghĩa là không gian L2 (K) là bao đóng
meaning that L2(K) space is the closure of the của hợp của tất cả các không gian con Vj, k
union of all subspaces Vj, j E Z. E Z.
…………………………
The multiresolution is reflected by the Sự đa phân giải đƣợc phản ánh bởi các yêu
additional requirements: cầu bổ sung:
………………………….
There exists a function, 0(t), such that its Tồn tại một hàm, 0 (t), sao cho tịnh tiến của
translates form an Riesz basis for V0. Using the nó hình thành một cơ sở Riesz đối với V0.
scale invariance condition, we see that {4>(2t Sử dụng các điều kiện bất biến tỷ lệ, chúng
— k)} is an Riesz basis for V^ ta thấy rằng {4> (2t - k)} là một cơ sở Riesz
đối với V ^
Similarly, if we define j (t) = 2j/20(2j t — k), Tƣơng tự, nếu chúng ta định nghĩa j (t) =
the n j (t) forms a Riesz bas is for Vj. The 2j/20 (2j t - k), nj (t) tạo thành một cơ sở
function 0, which generates all the basis Riesz đối với Vj. Hàm …, hàm tạo ra tất cả
functions for all the spaces Vj, is called the các hàm cơ sở cho tất cả các không gian Vj,
scaling function of the multi-resolution đƣợc gọi là hàm tỷ lệ của phân tích đa phân
analysis. Any Riesz basis [Mal99] can be giải. Bất kỳ cơ sở Riesz nào [Mal99] cũng
transformed into an orthonormal basis using the có thể đƣợc chuyển thành một cơ sở trực
Gram-Schmidt orthogonalization procedure chuẩn sự dụng quy trình trực giao hóa
|Wik|, Therefore, an orthonormal scaling Gram-Schmidt | Wik |, Vì vậy, một cơ sở
functions basis corresponds to each scaling hàm tỷ lệ trực chuẩn tƣơng ứng với mỗi cơ
functions basis mentioned above. sở hàm tỷ lệ đƣợc đề cập ở trên.
Another important property of MRA is that, Một đặc tính quan trọng của MRA là, xét
considering the subspace Wj, with Wj ± Vf các không gian con WJ, với WJ ± VF
Toán tử ở vế phải của phƣơng trình (1.20)
The operator in the right hand side of equation
biểu diễn tổng trực tiếp của các không gian
(1.20) represents the direct sum of Hilbert
Hilbert và chuỗi không gian Hilbert
spaces and the sequence of Hilbert spaces…
A direct application of multi-resolution analysis Một ứng dụng trực tiếp của phân tích đa
is the fast discrete wavelet transform algorithm phân giải là thuật toán biến đổi wavelet rời
used to implement the DWT |Mal99|, The fast rạc nhanh đƣợc sử dụng để thực thi DWT |
discrete wavelet transform decomposes signals Mal99 | Biến đổi wavelet nhanh phân tích
into low-pass and high-pass components sub- tín hiệu thành các thành phần thông thấp và
sampled by 2, while the inverse transform thông cao đƣợc lấy mẫu con (lấy mẫu phụ)
performs the reconstruction. Each mother 2, trong khi phép biến đổi ngƣợc thực hiện
wavelets ^ has a corresponding scaling function việc tái tạo. Mỗi hàm Wavelet mẹ có một
0, The subspaces Vj are generated using bases hàm tỷ lệ …tƣơng ứng. Các không gian con
obtained bv the translations of a scaled variant Vj đƣợc tạo ra sử dụng các cơ sở thu đƣợc
of a scaling function. The subspaces Wj are bằng các phép tịnh tiến của một biến thể
generated using bases obtained by translations đƣợc lấy tỷ lệ của hàm tỷ lệ. Các không gian
of a scaled version of the corresponding mother con …đƣợc tạo ra dùng các cơ sở thu đƣợc
wavelets. In this case the subspaces Wj from bằng cách tịnh tiến phiên bản đƣợc lấy tỷ lệ
(1,20) form an orthogonal decomposition of của các hàm wavelet mẹ tƣơng ứng. Trong
L2(^R). trƣờng hợp này, các không gian con …từ
(1.20) hình thành nên một phân tích trực
giao (khai triển trực giao) của …….
Decomposition: có thể dịch là ―phân tích‖
hoặc ―khai triển‖
1.4.1 Các thuật toán Mallat
1.4.1 The Algorithm of Mallat
Generally, the MRAs are implemented based Nói chung, các MRA đƣợc thực thi dựa trên
on the algorithm of Mallat |Mal99| corresponds thuật toán của Mallat | Mal99 | tƣơng ứng
to the computation of the DWT, represented in với tính toán DWT, đƣợc biểu diễn trong
Figure 1,7: hình 1.7:
Hình 1.7: Cây phân tích (cây phân rã)
Figure 1,7: A three order Mallat decomposition
Mallat ba bậc.
tree.
The signal x[n] is passed through a series of Tín hiệu x [n] đƣợc cho qua một loạt các bộ
high pass filters with the impulse response (gd), lọc thông cao với đáp ứng xung (gd), để
to analyze the high frequencies and it is passed phân tích các tần số cao và nó đƣợc truyền
through a series of low pass filters with the qua một loạt các bộ lọc thông thấp có đáp
impulse response (hd) to analyze the low ứng xung (hd) để phân tích các tần số thấp.
frequencies. At each level, the high-pass filter Ở mỗi mức, sau khi lẫy mẫu xuống, bộ lọc
produces after down sampling, the detail thông cao tạo ra thông tin chi tiết dk (k = 1,
information dk (k = 1, 2, 3 in this example), 2, 3 trong ví dụ này), trong khi các bộ lọc
while the low-pass filter associated with scaling thông thấp gắn với hàm tỷ lệ tạo ra các gần
function produces, after down-sampling, coarse đúng thô, ak (k = 1, 2, 3). Các phép toán lọc
approximations, ak (k = 1, 2, 3), The filtering xác định độ phân giải của tín hiệu, có nghĩa
operations determine the signal’s resolution, là số lƣợng thông tin chi tiết trong các tín
meaning the quantity of detail information in hiệu, trong khi mức tỷ lệ đƣợc xác định bởi
the signal, while the scale is determined by up- các phép toán lấy mẫu lên và lấy mẫu con
sampling and sub-sampling operations. (lấy mẫu phụ).
There is a correspondence between the Có một mối tƣơng quan giữa các khái niệm
concepts of MRA and orthogonal MRA và phân tích trực giao đƣợc đề cập ở
decomposition mentioned above, and the trên, và sơ đồ đƣợc miêu tả trong hình 1.7,
diagram depicted in Figure 1,7, If x[n] Nếu x [n] biểu diễn các hệ số phân tích của
represents the decomposition coefficients of a tín hiệu x (t) trong không gian V0, thì chuỗi
signal x(t) in the space Vo, then the sequence ai [n] biểu diễn các hệ số phân tích của x
ai[n] represents the decomposition coefficients (2t) trong V1 và chuỗi d1 [n] biểu diễn phân
of x(2t) in V1 and the sequ ence d1[n]
represents the decomposition Wi tích Wi
The reconstruction operation is the reverse Các phép toán tái tạo là một quá trình phân
process of decomposition. The IDWT of the tích ngƣợc. IDWT của tín hiệu ban đầu thu
original signal is obtained by concatenating all đƣợc bằng cách ghép tất cả các hệ số ak, và
the coefficients aK and dk, k = 1...K, starting dk, k = 1 ...K, bắt đầu từ mức phân tích cuối
from the last level of decomposition K, Due to cùng K, Do lấy mẫu con liên tiếp 2, chiều
successive sub-sampling bv 2, the signal length dài tín hiệu phải là lũy thừa của 2, hoặc ít
must be a power of 2, or at least a multiple of nhất là một bội số của lũy thừa của 2 và nó
power of 2 and it determines the number of quyết định số mức phân tích tín hiệu. IDWT
levels that the signal can be decomposed into. đƣợc thực thi với sự trợ giúp của các
The IDWT is implemented with the aid of up- chƣơng trình lấy mẫu lên và đáp ứng xung
samplers and finite impulse response (FIR) hữu hạn (FIR). Chuỗi các hệ số xấp xỉ
filters. The sequence of approximation tƣơng ứng với một mức phân tích nhất định
coefficients corresponding to a certain đƣợc tái tạo bắt đầu từ chuỗi các hệ số xấp
decomposition level is reconstructed starting xỉ và chi tiết của mức phân tích tiếp theo.
from the sequences of approximation and detail Các hệ số xấp xỉ này đƣợc lấy mẫu lên và
coefficients corresponding to the next kết quả đƣợc lọc với một bộ lọc thông thấp.
decomposition level. These approximation Các hệ số chi tiết đƣợc lấy mẫu lên và kết
coefficients are up-sampled and the result is quả đƣợc lọc với bộ lọc thông cao. Sau đó,
filtered with a low- pass filter. The detail hai kết quả mới đƣợc thêm vào. Các bộ lọc
coefficients are up-sampled and the result is thông thấp và cao đƣợc sử dụng trong
filtered with a high-pass filter. The two new IDWT có thể đƣợc xây dựng bắt đầu với các
results are then added. The low-pass and high- bộ lọc tƣơng ứng đƣợc sử dụng để thực thi
pass filters used in the IDWT can be DWT.
constructed starting with the corresponding
filters used for the implementation of the DWT.
The disadvantage of the Mallat;s algorithm is Những nhƣợc điểm của thuật toán Mallat là
that the length of the coefficient sequences chiều dài của chuỗi hệ số giảm khi tăng chỉ
decreases with the increasing of the iteration số lặp do việc sử dụng các hệ đếm thập
index due to the decimators utilization. This phân. Việc này tạo ra bất biến tịnh tiến,
fact produces translation variance, but the nhƣng DWT không có tính dƣ thừa.
DWT is not redundant.
So the differences between SWT and DWT are Vì vậy, sự khác biệt giữa SWT và DWT là
that the signal is never down-sampled, while tín hiệu không bao giờ đƣợc lấy mẫu xuống,
the filters are up-sampled at each level in the trong khi các bộ lọc đƣợc lấy mẫu lên ở mỗi
case of SWT, The SWT is an inherently mức trong trƣờng hợp của SWT, SWT là
redundant scheme as each set of coefficients một phƣơng pháp vốn đã dƣ thừa vì một tập
contains the same number of samples as the hợp các hệ số chứa cùng số mẫu nhƣ đầu
input - so for a decomposition of N levels there vào – vì vậy đối với một phân tích N mức
is a redundancy of 2 N. Because no có một sự dƣ thừa 2 N. Bởi vì không cần
downsampling is performed, a1 and d1 are of thực hiện lấy mẫu xuống, a1 và D1 có chiều
length N instead of N/2 as in the DWT case. At dài là N thay vì N / 2 nhƣ trong trƣờng hợp
the next level of the SWT,a1 is split into two DWT. Tại mức SWT tiếp theo, a1 đƣợc chia
using modified filters obtained by dyadic up- thành hai sử dụng các bộ lọc hiệu chỉnh thu
sampling the filters from the previous level. đƣợc từ việc lấy mẫu lên dyadic các bộ lọc
This process is continued recursively. The từ mức trƣớc đó. Quy trình này đƣợc tiếp
SWT is invertible and its inverse is named the diễn theo kiểu đệ quy. SWT là khả nghịch
Inverse SWT (ISWT), The implementation of và nghịch đảo của nó đƣợc đặt tên là SWT
the ISWT supposes to apply the inverse of the ngƣợc (ISWT). ISWT đƣợc thực thi bằng
operations applied for the implementation of cách áp dụng nghịch đảo của các phép toán
the SWT in inverse order. The SWT is đƣợc áp dụng để thực thi SWT theo thứ tự
translation invariant because all the filters ngƣợc lại. SWT có tính bất biến tịnh tiến
composing the scheme in Figure 1,8 are linear bởi vì tất cả các bộ lọc tạo thành sơ đồ trong
time invariant systems. hình 1.8 là các hệ bất biến thời gian tuyến
tính.
up-sampling: lấy mẫu lên, nâng tần số lấy
mẫu lên
1.5 Wavelet Families 1.5 Các họ Wavelet
There are several types of wavelet families
whose qualities vary according to several Có một số loại họ wavelet có tính chất thay
criteria such as: the support of the mother đổi theo một số tiêu chí chẳng hạn nhƣ:
wavelets, the symmetry, the number of miền xác định của hàm Wavelet mẹ, tính
vanishing moments, the regularity. These are đối xứng, số moment triệt tiêu, tính điều
associated with two properties that allow fast hòa. Những loại wavelet này gắn với hai
algorithm and space-saving coding: the tính chất cho phép thực hiện các thuật toán
existence of a scaling function and the nhanh và mã hóa tiết kiệm không gian: sự
orthogonality or the biorthogonality of the tồn tại của hàm tỷ lệ và tính trực giao hoặc
resulting analysis. They may also be associated song trực giao của kết quả giải tích cuối
with these less important properties: the cùng. Chúng cũng có thể gắn với những tính
existence of an explicit expression, the ease of chất ít quan trọng hơn: sự tồn tại của một
tabulating, or the familiarity with use, A biểu thức tƣờng minh, dễ lập bảng, hoặc
possible classification of wavelets is into two dùng quen. Chúng ta có thể phân loại các
classes: orthogonal and biorthogonal. wavelet thành hai lớp: trực giao và song
trực giao.
We have already mentioned that the set of Chúng tôi đã từng phát biểu rằng tập hợp
functions obtained by translations and dilations các hàm thu đƣợc từ các phép tịnh tiến và
of orthogonal mother wavelets forms an giãn nở của các hàm wavelet mẹ trực giao
orthogonal basis and that the set of functions hình thành nên một cơ sở trực giao và tập
obtained by translations and dilations of hợp các hàm thu đƣợc bằng cách tịnh tiến
biorthogonal mother wavelets forms a Riesz và giãn nở các hàm wavelet mẹ song trực
basis. Further details about the biorthogonal giao hình thành nên một cơ sở Riesz. Trong
wavelets will be given in this section. phần này, chúng ta sẽ nghiên cứu về các
wavelet song trực giao.
There is a variety of mother wavelets such as Có nhiều hàm Wavelet mẹ nhƣ Daubechies,
Daubechies, Symmlet, Haar or Coiflet, which Symmlet, Haar hoặc Coiflet, tạo ra các cơ
generate orthogonal wavelet bases. An example sở wavelet trực giao. Ví dụ về một số dạng
of several mother wavelets waveforms, sóng Wavelet mẹ đƣợc tạo ra trong Matlab
generated in Matlab®, is presented in Figure ®, đƣợc trình bày trong hình 1.9,
1,9,
……………………..
Figure 1,9: Several different mother wavelets: Hình 1.9: Một số hàm Wavelet mẹ khác
a) Gaussian wave; b) Mexican hat; c) Haar; d) nhau: a) Sóng Gauss b) mũ Mexico c) Haar
Morlet, d) Morlet,
The Haar mother wavelets is used for the Các hàm Wavelets mẹ Haar đƣợc sử dụng
computation of the Discrete Wavelet để tính toán biến đổi Wavelet rời rạc,
Transform, DiWT, the other three mother DiWT, ba hàm Wavelet mẹ khác trong hình
wavelets showed in Figure 1.9 are used for the
computation of the CWT. 1.9 đƣợc sử dụng cho tính toán CWT.
Since the mother wavelet produces all wavelet
functions used in the transformation through Bởi vì hàm wavelet mẹ tạo ra tất cả các hàm
translation and scaling, it determines the wavelet đƣợc sử dụng trong biến đổi thông
characteristics of the resulting DiWT. qua tịnh tiến và lấy tỷ lệ, nó sẽ xác định các
Therefore, the details of the particular đặc tính của DiWT cuối cùng. Vì vậy,
application should be taken into account and chúng ta nên xem xét các chi tiết ứng dụng
the appropriate mother wavelets should be cụ thể và chọn các hàm Wavelet mẹ thích
chosen in order to use the DiWT effectively. hợp để sử dụng DiWT hiệu quả.
1.5.1 Các Moment triệt tiêu
1.5.1 Vanishing Moments
The number of vanishing moments (or zero Số lƣợng moment triêt tiêu (hoặc các
moments) is used to measure the local moment bằng không) đƣợc sử dụng để đo
regularity of a signal [Mal99], According to sự điều hòa cục bộ của một tín hiệu [Mal99]
[Dau92] vanishing moments are a necessary Theo [Dau92], các moement triệt tiêu là
condition for the smoothness of the wavelet điều kiện cần thiết để làm trơn hàm wavelet.
function.
Một wavelet …có p moment triệt tiêu nếu:
A wavelet ^(t) has p vanishing moments if:
Substituting the mother wavelets in the integral Thay các hàm Wavelet mẹ vào tích phân từ
from the left hand side of equation (1.21) vế trái của phƣơng trình (1.21)
……………………….
The local regularity of mother wavelets is Tính điều hòa cục bộ của các hàm wavelet
important because it can be chosen equal with mẹ là quan trọng vì nó có thể đƣợc chọn
the local regularity of the signal currently bình đẳng với tính điều hòa cục bộ của tín
analyzed. This is an optimization technique for hiệu đang đƣợc phân tích. Đây là một kỹ
the procedure of selection of the mother thuật tối ƣu cho quy trình chọn lựa các hàm
wavelets. There are some features of mother Wavelet mẹ. Có một số đặc tính của hàm
wavelets which depend on its number of Wavelet mẹ phụ thuộc vào số moment triệt
vanishing moments as the length of its support tiêu của nó nhƣ chiều dài miền xác định của
or its time, frequency or time-frequencv nó hoặc sự cục bộ hóa thời gian, tần số hoặc
localizations. The length of the support of a thời gian-tần số của nó. Chiều dài miền xác
mother wavelets increases with the increasing định của một hàm Wavelet tăng lên khi tăng
of the number of vanishing moments. The time số moement triệt tiêu. Sự cục bộ thời gian
localization and the time-frequencv localization và cục bộ thời gian-tần số của các hàm
of a mother wavelets decrease with the wavelet mẹ giảm khi tăng số moment triệt
increasing of the number of vanishing tiêu. Tính cục bộ hóa tần số của các hàm
moments. The frequency localization of a Wavelet mẹ tăng cùng với sự tăng số
mother wavelets increases with the increasing moment triệt tiêu.
of the number of vanishing moments. Support: chúng tôi dịch là tập xác định, một
số tài liệu dịch là ―giá‖.
https://vi.wikipedia.org/wiki/Gi%C3%A1_(to%C3%A1
n_h%E1%BB%8Dc)
Theorem 1 [Mal99] associates the number of Định lý 1 [Mal99] liên kết số moment triệt
vanishing moments of 0 with the number of tiêu của ….với số đạo hàm triệt tiêu của tf
vanishing derivatives of tf(u) at w = 0, (u) tại w = 0, tƣơng ứng của hd (u) tại w =
respective of hd(u) at w = n. n.
Theorem 1 Định lý 1
Let -0 and 0 be a wavelet and the Cho và là một wavelet và hàm tỷ lệ
corresponding scaling function that generates tƣơng ứng tạo ra một cơ sở trực giao. Giả sử
an orthogonal basis. Suppose that |^(t)| = O((1 | ^ (t) | = O ((1 + t2) -p/2-i) và | 0 (t) | = O
+ t2)-p/2-i) and |0(t)| = O((1 + t2)-p/2-i). The ((1 + t2) -p/2-i). Bốn phát biểu sau đây
following four statements are equivalent: tƣơng đƣơng:
1. The wavelet -0 has p vanishing
moments; 1. Wavelet có p moment triệt tiêu;
2. if(u) and its first p-1 derivatives are 0 at 2. …. và p-1 đạo hàm bậc nhất của nó bằng
w = 0; 0 tại ;
3, …. và p-1 đạo hàm bậc nhất của nó bằng
3, hd(u) and its first p-1 derivatives are 0 at 0 tại ;
u = n;
4, for any 0 < k < p, 4, đối với bất kỳ 0 <k <p,
………… (1.22) là một đa thức bậc k.
is a polynomial of degree k. hd
In this theorem……represents the Fourier Trong định lý này, ….biểu diễn biến đổi
transform of the conjugate mirror filter in Fourier của bộ lọc gƣơng liên hợp trong
Figure 1.7, while ^ represents the Fourier Hình 1.7, trong khi ….biểu diễn biến đổi
transform of A conjugate mirror filter Fourier của . Bộ lọc gƣơng liên hợp biểu
represents a discrete filter that characterizes any diễn một bộ lọc rời rạc đặc trƣng cho bất kỳ
scaling function, 0, hàm tỷ lệ nào.
The proof of the theorem is presented in
Phần chứng minh định lý này đƣợc trình
[Mal99], The Theorem 1 highlights the
bày trong [Mal99], Định lý 1 nhấn mạnh
importance of the selection of the number of
tầm quan trọng của việc lựa chọn số
vanishing moments of mother wavelets.
moment triệt tiêu của các hàm Wavelet mẹ.
Condition 2 refers to the opportunity of the use
Điều kiện 2 cho chúng ta thấy khả năng sử
of wavelets in spectral analysis. There are
dụng các Wavelet trong phân tích phổ. Có
signals, as for example the long range
những tín hiệu, chẳng hạn nhƣ các tín hiệu
dependent random signals (which will be
studied in Chapter 4), whose spectral analysis is ngẫu nhiên phụ thuộc thời gian dài (sẽ đƣợc
very difficult at low frequencies, because their nghiên cứu trong Chƣơng 4), phân tích phổ
Fourier transform tends to infinity when the của nó rất khó khăn tại các tần số thấp, bởi
frequency tends to zero. vì biến đổi Fourier của chúng có xu hƣớng
tiến tới vô cùng khi tần số tiến tới không.
This spectral analysis can be successfully done Việc phân tích phổ này có thể đƣợc thực
with the aid of wavelets having an appropriate hiện thành công với sự hổ trợ của các
number of vanishing moments. Condition 3 in Wavelet có một số moment triệt tiêu thích
Theorem 1 gives indications about the hợp. Điều kiện 3 trong định lý 1 cho chúng
construction of the quadrature mirror filter ta biết về cấu trúc của một bộ lọc gƣơng cầu
associated with the mother wavelets. The phƣơng ứng với các hàm Wavelet mẹ của
construction of this filter is related to the length nó. Việc xây dựng các bộ lọc này có liên
of the support of mother wavelets. The mother quan đến chiều dài của tập xác định của các
wavelet with the shortest support is the Haar hàm Wavelet mẹ. Các hàm wavelet mẹ với
mother wavelets. It has only one vanishing miền xác định ngắn nhất là các hàm
moment. Finally, Condition 4 specifies the Wavelet mẹ Haar. Nó chỉ có một moment
degree of the polynomial which can be triệt tiêu. Cuối cùng, Điều kiện 4 xác định
represented by linear combination of the bậc của đa thức có thể đƣợc biểu diễn bởi tổ
corresponding scaling function. This degree hợp tuyến tính của hàm tỷ lệ tƣơng ứng. Bậc
depends on the number of vanishing moments này cũng phụ thuộc vào số moment triệt
as well. tiêu.
Support: chúng tôi dịch là tập xác định, một
số tài liệu dịch là ―giá‖.
https://vi.wikipedia.org/wiki/Gi%C3%A1_(to%C3%A1
n_h%E1%BB%8Dc)
The coefficients of digital filters in Figures 1.7 Các hệ số của bộ lọc kỹ thuật số trong hình
and 1.8 are real numbers, the filters are of the 1.7 và 1.8 là các số thực, các bộ lọc có cùng
same length and are not symmetric. The two chiều dài và không đối xứng. Hai bộ lọc h
filters h and g from a decomposition level are và g từ một mức phân tích là flip xen kẽ
alternating flip of each other. This means that: nhau. Điều này có nghĩa là
g[n] = (—1)nh[M - n], (1.23)
Flip ở đây có thể là ―lật‖ hoặc ―nằm‖, hoặc
flip-flop
g [n] = (-1) nh [M - n], (1.23)
An orthogonal wavelet has p vanishing Một wavelet trực giao có p moment triệt
moments if and only if its scaling function can tiêu nếu và chỉ nếu hàm tỷ lệ của nó có thể
generate polynomials of degree smaller than or tạo ra các đa thức bậc nhỏ hơn hoặc bằng p.
equal to p.
If we refer to symmetry, it is well known that Nếu xét ở tính đối xứng, nhƣ chúng ta đã
there is no symmetric compactly supported biết, không có các hàm wavelet mẹ trực
orthogonal mother wavelets, besides the giao đƣợc hổ trợ nhỏ gọn đối xứng, bên
wavelet of Haar, cạnh những wavelet Haar,
The Daubechies mother wavelets are not Các hàm Wavelet mẹ Daubechies không đối
symmetric, A selection of Daubechies wavelets xứng, việc lựa chọn các Wavelet
(left) and their scaling functions (right) is Daubechies (trái) và các hàm tỷ lệ của
presented in Figure 1,10, chúng (phải) đƣợc trình bày trong hình 1.10,
Mother D4 Wavelet Father D4 Wavelet Wavelet Mẹ D4 Wavelet Cha D4
Figure 1,10: A selection of Daubechies Hình 1.10: Việc lựa chọn các Wavelet
wavelets (left) and their scaling functions Daubechies (trái) và các hàm tỷ lệ của
(right): db4, db6 and dblO, chúng (phải): DB4, DB6 và dblO,
The elements of the Daubechies’ family mostly
Các yếu tố của họ Daubechies thƣờng đƣợc
used in practice are dbl - db20. The index refers
sử dụng trong thực tế là dbl - db20. Chỉ số
to the number of vanishing moments. The
cho biết số moment triệt tiêu. Số moment
number of vanishing moments is equal to half
triệt tiêu bằng nửa chiều dài các bộ lọc số
of the length of the digital filters length,N, in
chiều dài N, trong trƣờng hợp họ các hàm
the case of Daubechies family of mother
wavelet mẹ Daubechies. Chẳng hạn, dbl
wavelets. For example, dbl (the Haar wavelet)
(wavelet Haar) có một moment triệt tiêu,
has one vanishing moment, db2 has two
db2 có hai moment triệt tiêu và v.v..
vanishing moments and so on.
Haar wavelet (Daubechies wavelet of order 1) Wavelet Haar (Wavelet Daubechies bậc 1)
(represented in Figure 1,9, c) was the first (đƣợc biểu diễn trong hình 1.9, c) là các
mother wavelets proposed by Alfred Haar in hàm Wavelet mẹ đầu tiên do Alfred Haar đề
1909 [HaalO] and has the shortest support xuất vào năm 1909 [HaalO] và có miền xác
among all orthogonal wavelets. The Haar định ngắn nhất trong số tất cả các Wavelet
mother wavelets generates, by translations and trực giao. Qua các phép tịnh tiến và giãn nở,
dilations, orthogonal wavelets. It is the single các hàm Wavelet mẹ tạo ra các Wavelet trực
symmetric orthogonal mother wavelets. It is not giao. Nó là các hàm wavelet mẹ trực giao
well adapted for approximating smooth đối xứng duy nhất. Nó không thích hợp với
functions because it has only one vanishing việc tính gần đúng các hàm trơn vì nó chỉ có
moment. Only Haar wavelets has an explicit một moment triệt tiêu. Chỉ Wavelet Haar có
expression, all other orders Daubechies biểu thức tƣờng minh, tất cả các Wavelet
wavelets are represented by wavelet Daubechies bậc khác đƣợc biểu diễn bằng
coefficients and dilation equation. các hệ số wavelet và phƣơng trình giãn nở,
Haar mother wavelet function ^(t) has the Hàm wavelet Haar mẹ ^ (t) có biểu thức:
expression:
( 1, 0 < t < 1/2 tf(t) = I -1, 1/2 < t < 1 (1.24)
The advantages of Haar wavelet transform are
the following: it is conceptually simple and fast Phép biến đổi wavelet Haar có những ƣu
(the impulse response of its associated điểm nhƣ sau: về mặt lý thuyết, nó đơn giản
quadrature mirror filter has only two và nhanh (đáp ứng xung của bộ lọc gƣơng
coefficients and the number of operations cầu phƣơng tƣơng ứng của nó chỉ có hai hệ
required by the implementation of the Haar số và số phép toán cần thiết để thực hiện
transform is of the order of 2N, where N biến đổi Haar vào bậc 2N, ở đây N biểu
represents the number of the samples of the diễn số mẫu của tín hiệu đầu vào), nó tiết
input signal), it is memory efficient, and it is a kiệm bộ nhớ, và nó là một lựa chọn tốt để
good choice to detect time localized phát hiện thông tin cục bộ hóa thời gian. Do
information. Because of these advantages we những ƣu điểm này, chúng ta ƣu tiên dùng
will use it with predilection in Chapters 3 and nó trong chƣơng 3 và 4.
4.
Symmlets Symmlets
Daubechies wavelets are quite asymmetric. To Wavelet Daubechies hơi bất đối xứng. Để
improve symmetry Daubechies proposed cải thiện tính đối xứng Daubechies đã nghĩ
Symmlets as a modification to her original ra các Symmlet nhƣ một biến thể của các
wavelets [Dau92]. wavelet ban đầu của bà ấy [Dau92],
Svmmlets (symN, where N is the order), also Svmmlets (symN, trong đó N là bậc), còn
known as Daubechies least asymmetric mother đƣợc gọi là các hàm Wavelet mẹ
wavelets, are compact supported, orthogonal, Daubechies ít bất đối xứng nhất, đƣợc hổ
continuous, but only nearly symmetric mother trợ nhỏ gọn, trực giao, liên tục, nhƣng chỉ là
wavelets. The purpose was to create wavelets các hàm Wavelet gần đối xứng. Mục đích là
with the same size and same number of để tạo ra các Wavelet với kích thƣớc và số
vanishing moments as Daubechies, but with lƣợng moment triệt tiêu tƣơng tự nhƣ nhƣ
near linear phase filters. Daubechies, nhƣng với các bộ lọc pha tuyến
tính,
Symmlets có số moment triệt tiêu cao nhất
Symmlets have the highest number of
đối với một độ rộng miền xác định nhất
vanishing moments for a given support width.
định. Việc xây dựng chúng rất giống với
Their construction is very similar to the
việc xây dựng các Wavelet Daubechies,
construction of Daubechies wavelets, but the
nhƣng tính đối xứng của Symmlets mạnh
symmetry of Symmlets is stronger than the
hơn tính đối xứng của các hàm Wavelet mẹ
symmetry of Daubechies mother wavelets,
Symmlets have N/2 vanishing moments, Daubechies, Symmlets có N / 2 moment
triệt tiêu, chiều dài miền xác định N - 1 và
support length N — 1 and filter length N,
chiều dài bộ lọc N,
Some examples of Symmlets (svm6 and svm8) Hình 1.11 trình bày một số ví dụ về
and their associated scaling functions are Symmlets (svm6 và svm8) và các hàm tỷ lệ
presented in Figure 1,11, tƣơng ứng của chúng.
Mother S6 Symmlet Father S6 Symmlet
Symmlet Mẹ S6 Symmlet Cha S6
Figure 1,11: Symmlets (left) and their Hình 1.11: Symmlets (trái) và các hàm tỷ lệ
associated scaling functions (right): sym6 and tƣơng ứng của chúng (phải): sym6 và sym8.
sym8.
Coiflets Coiflets
Coifman wavelets or "Coiflets" (coifN, where
Các Wavelet Coifman hoặc "Coiflets"
N is the order) are discrete wavelets designed
(coifN, trong đó N là bậc) là các Wavelet
by Ingrid Daubechies |Dau92| and named in the
rời rạc đƣợc thiết kế bởi Daubechies Ingrid |
honor of Ronald Coifman (another researcher
Dau92 | và đƣợc đặt tên để vinh danh
in the field of wavelets theory), Ronald
Ronald Coifman (một nhà nghiên cứu trong
Coifman suggested the construction of a
lĩnh vực lý thuyết Wavelet), Ronald
orthonormal wavelets family with the same
Coifman đã nghĩ ra việc xây dựng một họ
number of vanishing moments as the scaling
Wavelet trực chuẩn với số moment triệt tiêu
functions they came from.
tƣơng tự nhƣ số moment triệt tiêu của các
hàm tỷ lệ sinh ra chúng.
Coiflets are compactly supported wavelets and Coiflets là các Wavelet đƣợc hổ trợ nhỏ gọn
were designed to be more symmetrical than và đƣợc thiết kế để có tính đối xứng nhiều
Daubechies mother wavelets to have a support hơn các hàm Wavelet mẹ Daubechies có tập
of size N — 1 and filter length N, The wavelet xác định kích thƣớc N - 1 và bộ lọc chiều
has N/3 vanishing moments, while the scaling dài N, Wavelet có N / 3 moment triệt tiêu,
function has N/3 — 1 vanishing moments. The trong khi các hàm tỷ lệ có N / 3 – 1 moment
number next to the wavelet’s name represents triệt tiêu. Số bên cạnh tên của wavelet biểu
the number of vanishing moments, related to diễn số moment triệt tiêu, liên quan đến số
the number of wavelet coefficients. hệ số wavelet.
Two examples of Coiflets (coifS and coif5) and Hai ví dụ về Coiflets (coifS và coif5) và các
their associated scaling functions are shown in hàm tỷ lệ tƣơng ứng của nó đƣợc biểu diễn
Figure 1,12. trong hình 1.12,
Mother C3 Coiflet Father C3 Coiflet Coiflet Mẹ C3 Coiflet Cha C3
Figure 1,12: Coiflets (left) and their associated Hình 1,12: Coiflets (trái) và hàm tỷ lệ tƣơng
scaling functions (right): coif3, coif5. ứng của chúng (phải): coif3, coif5.
1.5.3 Biorthogonal and Reverse Biorthogonal 1.5.3 Các Wavelet song trực giao và song
Wavelets
trực giao nghịch đảo
As already said the biorthogonal wavelets are Nhƣ đã nói, các wavelet song trực giao là
elements of Riesz bases generating MRAs, In các thành phần của cơ sở Riesz tạo các
opposition with the orthogonal scaling MRA. Đối lập với các hàm tỷ lệ trực giao
functions which generate a single MRA, the tạo ra một MRA duy nhất, các hàm tỷ lệ
biorthogonal scaling functions are associated in song trực giao ứng với các cặp tạo một cặp
pairs which generate a pair of MRAs, The first MRA, Thành phần đầu tiên của cặp hàm tỷ
element of the pair of biorthogonal scaling lệ song trực giao tạo ra một MRA đƣợc sử
functions generates a MRA used for analyzing dụng để phân tích các tín hiệu đầu vào của
the input signal of the associated forward WT, WT thuận tƣơng ứng, Thành phần thứ hai
The second element generates a MRA used for tạo ra một MRA đƣợc sử dụng để tổng hợp
the synthesis associated with the inverse WT, gắn liền với WT ngƣợc. Các thành phần của
The elements of each MRA are orthogonal on mỗi MRA trực giao trên các thành phần của
the elements of a corresponding orthogonal một phân tích trực giao tƣơng ứng. Vì vậy,
decomposition. So, there are two orthogonal có hai sự tƣơng ứng trực giao. Chúng tạo
correspondences. They form a biorthogonal thành sự tƣơng ứng song trực giao. Phần sau
correspondence. More details about the concept sẽ trình bày chi tiết hơn về khái niệm song
of biorthogonality will be given in the trực giao.
following.
Biorthogonal families include Biorthogonal and
Reverse Biorthogonal wavelets. Generally, the Các họ song trực giao bao gồm các Wavelet
biorthogonal scaling functions are selected song trực giao và song trực giao ngƣợc. Nói
from the family of spline functions. The Haar chung, các hàm tỷ lệ song trực giao đƣợc
scaling function is a spline function of order chọn từ họ các hàm spline (hàm chốt trục,
zero. The spline function of first order is hàm đa tuyến). Hàm tỷ lệ Haar là hàm
obtained bv convolving the spline function of spline bậc không. Chúng ta có thể thu đƣợc
order zero with her self. The nth order spline hàm spline bậc nhất bằng cách convolving
function is obtained by convolving the spline (tích chập) hàm spline bậc không với chính
function of order n — 1 with the spline nó. Hàm spline bậc n thu đƣợc bằng cách
function of order 0, Both families of wavelets, convolving (tích chập) hàm spline bậc n - 1
Biorthogonal and Reverse Biorthogonal, are với hàm spline bậc 0. Cả hai họ Wavelet,
composed by compactly supported wavelets song trực giao và song trực giao ngƣợc,
associated with biorthogonal spline scaling đƣợc tạo thành từ các Wavelet đƣợc hỗ trợ
functions implemented with FIR filters. Both nhỏ gọn ứng với các hàm tỷ lệ spline song
symmetry and exact reconstruction are possible trực giao đƣợc thực thi với các bộ lọc FIR.
with FIR filters, |Mal99|, Cả tính đối xứng và tái tạo chính xác đều
khả thi với các bộ lọc FIR
Biorthogonal wavelets are families of
Các Wavelet song trực giao là các họ
compactly supported symmetric wavelets.
Their construction can be made using an Wavelet đối xứng đƣợc hổ trợ nhỏ gọn.
infinite cascade of perfect reconstruction filters Việc xây dựng chúng có thể đƣợc thực hiện
which produce two scaling functions, ^d < and dùng một tầng vô hạn các bộ lọc tái tạo
two wavelets, 0 and 0. For any j E Z, <j,n and hoàn hảo tạo ra hai hàm tỷ lệ, và và hai
4>j,n with n E Z, generate bases of Vj and Vj Wavelet, và . Đối với bất kỳ ,… và
and the corresponding wavelets 0j,n and 0 with …, n với , tạo ra cơ sở của và … và
n E Z, generate bases of two detail spaces Wj các Wavelet tƣơng ứng 0j, n và 0 với ,
and Wj such that: tạo ra cơ sở của hai không gian chi tiết
và …. sao cho:
In Figure 1,13 is shown an example of Hình 1.13 trình bày ví dụ về các Wavelet
biorthogonal wavelets with their associated song trực giao với các hàm tỷ lệ tƣơng ứng
scaling functions, for analvsis and svnthesis. của chúng, để phân tích và tổng hợp.
Figure 1,13: Biorthogonal wavelets, analysis Hình 1,13: Các Wavelet song trực giao,
and synthesis (right) and their associated phân tích và tổng hợp (bên phải) và các hàm
scaling functions (left). tỷ lệ tƣơng ứng của chúng (trái).
The digital filters associated with biorthogonal Các bộ lọc kỹ thuật số ứng với các hàm
mother wavelets exhibit the property of linear Wavelet mẹ song trực giao có tính chất pha
phase which ensures the symmetry of the tuyến tính đảm bảo tính đối xứng của các
mother wavelets. Instead of a single orthogonal hàm Wavelet mẹ. Thay vì một wavelet trực
wavelet, in the case of biorthogonal wavelet giao duy nhất, trong trƣờng hợp biến đổi
transforms two wavelets are used (one for wavelet trực giao, ngƣời ta sử dụng hai
decomposition and the other for Wavelet (một cho phân tích và một cho tái
reconstruction), as it can be seen in Figure 1,13, tạo), nhƣ trong hình 1.13. Thiết kế các
Designing biorthogonal wavelets allows Wavelet song trực giao cho phép thêm các
additional degrees of freedom as compared to bậc tự do so với các Wavelet trực giao, ví
orthogonal wavelets, for example the dụ nhƣ khả năng xây dựng các hàm wavelet
possibility of constructing symmetric wavelet đối xứng, | Mal99 |, Trong trƣờng hợp các
functions, |Mal99|, In the case of the bộ lọc wavelet song trực giao, các bộ lọc
biorthogonal wavelet filters, the low pass and thông thấp và thông cao có cùng độ dài. Bộ
the high pass filters do not have the same lọc thông thấp luôn luôn đối xứng, trong khi
length. The low pass filter is always symmetric, bộ lọc thông cao có thể đối xứng hoặc bất
while the high pass filter could be either đối xứng. Các hệ số của bộ lọc là số thực
symmetric or asymmetric. The coefficients of hoặc số nguyên. Để tái tạo lại hoàn hảo,
the filters are either real numbers or integers. ngân hàng bộ lọc song trực giao có tất cả
For perfect reconstruction, biorthogonal filter các bộ lọc với chiều dài chẵn và lẻ. Hai bộ
bank has all filters of odd length or even length. lọc phân tích có thể đối xứng với chiều dài
The two analysis filters can be symmetric with lẻ hoặc một bộ lọc đối xứng và bộ còn lại
odd length or one symmetric and the other
asymmetric with even length. Also, the two sets bất đối xứng với chiều dài chẵn. Ngoài ra,
of analysis and synthesis filters must be dual. hai tập hợp các bộ lọc phân tích và tổng hợp
The linear phase biorthogonal filters are the phải có hai chức năng. Các bộ lọc song trực
most popular filters for data compression giao pha tuyến tính là những bộ lọc phổ
applications. biến nhất trong các ứng dụng nén dữ liệu.
The biorthogonal wavelets are denoted as
biorNr.Nd, where Nr is the order of the wavelet Các Wavelet song trực giao đƣợc ký hiệu là
or the scaling functions used for reconstruction biorNr.Nd, trong đó Nr là bậc của các
and Nd is the order of the functions used for wavelet hoặc các hàm tỷ lệ đƣợc sử dụng để
decomposition. The reconstruction and tái tạo và Nd là bậc của hàm đƣợc sử dụng
decomposition functions have the support phân tích. Các hàm tái tạo và phân tích có
width equal to 2Nr + 1 and 2Nd + 1, độ rộng miền xác định tƣơng ứng là 2Nr + 1
respectively. The length of the associated filters và 2 + 1. Chiều dài của bộ lọc tƣơng ứng là
is max(2Nr, 2Nd) + 2, max(2Nr, 2) + 2,
Reverse biorthogonal (rbioNr.Nd, where Nr Song trực giao ngƣợc (rbioNr.Nd, trong đó
and Nd are the orders for the reconstruction and Nr và Nd tƣơng ứng là các bậc đối với
decomposition respectively) is obtained from trƣờng hợp tái tạo và phân tích) đƣợc lấy từ
biorthogonal wavelet pairs. This type of cặp wavelet song trực giao. Loại Wavelet
wavelets are compactly supported biorthogonal này là các Wavelet spline song trực giao
spline wavelets for which symmetry and exact đƣợc hổ trợ nhỏ gọn để tạo điều kiện cho
reconstruction are possible with FIR filters, A tính đối xứng và tái tạo chính xác với các bộ
comparison between the implementation of the lọc FIR. Một so sánh giữa việc thực hiện
DiWT based on orthogonal and biorthogonal DiWT dựa trên các Wavelet trực giao và
wavelets is presented in Figure 1,14, song trực giao đƣợc trình bày trong hình
Z''Analysis 1,14,
M RA generated by <p 1 Synthesis
MRA generated by <p Z'' Phân tích
Orthogonal decomposition generated by ip (i|
M RA đƣợc tạo ra bởi <p 1 Tổng hợp
Orthogonal decomposition generated by IJJ (
Orthogonal decomposition generated by (jj (ip J MRA đƣợc tạo ra bởi <p
Orthogonal decomposition generated by IJJ (yj
Phân tích trực giao đƣợc tạo ra bởi ip (i | j_L
Phân tích trực giao đƣợc tạo ra bởi IJJ (14J
_Ltp)
Phân tích trực giao đƣợc tạo ra bởi (jj (ip J_
Phân tích trực giao đƣợc tạo ra bởi IJJ (yj-i-
<p)
Figure 1,14: A comparison between DiWT Hình 1,14: So sánh các quá trình thực thi
implementations based on orthogonal wavelet DiWT dựa trên các hàm wavelet trực giao
functions (a)) and biorthogonal wavelet (a)) và song trực giao (b)).
functions( b)).
1.6 Applications of Wavelet Transforms 1.6 Các ứng dụng của chuyển đổi Wavelet
Wavelet transforms are now used in many Hiện nay, các biến đổi Wavelet đƣợc ứng
applications, replacing the traditional Fourier dụng trong nhiều lĩnh vực, thay thế biến đổi
Transform, Wavelets are extensively used in Fourier truyền thống, các Wavelet đƣợc sử
Signal and Image Processing [FirlO], dụng rộng rãi trong xử lý tín hiệu và xử lý
Communications [OltlO], Computer Graphics hình ảnh [FirlO], Truyền thông [OltlO], Đồ
[CS05], Finance [GSW01], Medicine [Olkll], họa máy tính [CS05], Tài chính [GSW01], y
Biology [Olkll], Geology [Kolll] and many [Olkll], Sinh học [Olkll], Địa chất [Kolll] và
other fields. nhiều lĩnh vực khác.
Wavelets have been heavily utilized to find the Các Wavelet đã đƣợc sử dụng rất nhiều để
edges in digital images, to digitally compress tìm các biên trong các ảnh kỹ thuật số, nén
fingerprints, in the modeling of distant galaxies dấu vân tay bằng phƣơng pháp số, trong
or in denoising noisy data. Musicologists used việc mô hình hóa các thiên hà xa xôi hoặc
wavelets to reconstruct damaged recordings, khử nhiễu dữ liệu. Các nhà nghiên cứu âm
[BF09], nhạc đã sử dụng Wavelet để tái tạo lại các
băng đĩa bị hỏng, [BF09],
Phân tích wavelet đã chứng tỏ là một công
Wavelet analysis is proving to be a very
cụ hữu dụng để nghiên cứu tính chất tự
powerful tool for characterizing self-similar
đồng dạng, trên một khoảng rộng các thang
behavior, over a wide range of time scales,
thời gian [Gra95],
[Gra95].
1.7 Kết luận
1.7 Conclusions
As it was shown in sub-sections 1,2,4, where Nhƣ đã trình bày trong tiểu mục 1.2.4, ở đó
the wavelet transform was compared with the chúng tôi đã so sánh biến đổi wavelet với
Fourier transform and 1,4,1, where the CWT biến đổi Fourier và 1.4.1, trong đó trình bày
was introduced, the wavelet transforms are nội dung liên quan đến CWT, các biến đổi
important tools for analysis and processing of wavelet là những công cụ quan trọng để
non-stationarv signals. The scaling functions phân tích và xử lý các tín hiệu không tĩnh.
associated to wavelets allow the Các hàm tỷ lệ gắn với các Wavelet cho phép
implementation of MEAs as it was shown in thực hiện các MEA nhƣ đã trình bày trong
the sub-section 1,5, This is an important tiểu mục 1.5. Đây là một khái niệm quan
concept because it allows the identification of trọng vì nó cho phép xác định độ phân giải
the most appropriate resolution for the thích hợp nhất để biểu diễn một tín hiệu
representation of a given signal in a specified nhất định trong một ứng dụng cụ thể. Các
application. The details of a signal which does chi tiết của một tín hiệu không mang những
not carry relevant information for the thông tin liên quan đối với ứng dụng đang
considered application can be neglected on the xét có thể đƣợc bỏ qua trên cơ sở MEA, đẩy
basis of MEA, speeding the implementation of nhanh tiến độ thực thi ứng dụng. Chúng tôi
the application. We will use the MEA concept sẽ sử dụng khái niệm MEA trong Chƣơng 3,
in Chapter 3, for a traffic forecasting cho một ứng dụng dự báo lƣu lƣợng tin. Có
application. There are two algorithms for the hai thuật toán để thực thi MEA, các thuật
implementation of a MEA, the algorithm of toán của Mallat gắn liền với DWT, đƣợc
Mallat associated with the DWT, presented in trình bày trong tiểu mục 1.5.1 và các thuật
sub-section 1,5,1 and the algorithm of Shensa toán của Shensa gắn liền với SWT, đƣợc
associated with the SWT, presented in sub- trình bày trong tiểu mục 1.5.2 . Chúng tôi sẽ
section 1,5,2, We will use both algorithms in sử dụng cả hai thuật toán trong các chƣơng
the following chapters of this thesis. The tiếp theo của luận án này. Vấn đề dự báo
problem of WiMAX traffic forecasting is lƣu lƣợng tin trong mạng WiMAX đã đƣợc
solved in Chapter 3 with the aid of the SWT, làm rõ trong chƣơng 3 với sự hổ trợ của
The problem of the long range dependence of SWT, Các vấn đề phụ thuộc nhau thời gian
the WiMAX traffic detection is solved in dài của sự phát hiện lƣu lƣợng tin trong
Chapter 4 with the aid of DWT, In both cases mạng WiMAX đƣợc nghiên cứu trong
the use of wavelets speed-up considerably the chƣơng 4 với sự hổ trợ của DWT, trong cả
application. The most used families of mother hai trƣờng hợp sử dụng Wavelet tăng tốc
wavelets were presented in section 1,6, One of đáng kể ứng dụng. Họ các hàm wavelet mẹ
the goals of the present thesis is to find out the đƣợc sử dụng nhiều nhất đƣợc trình bày
most appropriate mother wavelets for traffic trong phần 1.6 Một trong những mục tiêu
forecasting and long range dependence của luận án này là tìm các hàm wavelet mẹ
detection. This purpose will be achieved by thích hợp nhất để dự báo lƣu lƣợng tin và
brute force search. Each element of the phát hiện sự phụ thuộc thời gian dài. Mục
orthogonal and biorthogonal wavelet families tiêu này sẽ đƣợc thực hiện thông qua thuật
presented in section 1,6 will be tested in both toán thử sai. Mỗi phần tử của họ wavelet
applications and the mother wavelets which trực giao và song trực giao trình bày trong
will optimize the performance of each phần 1.6 sẽ đƣợc kiểm tra trong cả hai ứng
application will be retained. dụng và các hàm wavelet mẹ sẽ tối ƣu hóa
hiệu suất của mỗi ứng dụng sẽ đƣợc giữ lại.
One of the most important parameters for the Một trong những tham số quan trọng nhất
selection of mother wavelets is its number of trong quá trình chọn lựa các hàm wavelet
vanishing moments, introduced in sub-section mẹ là số moment triệt tiêu của nó, đƣợc giới
1,6,1, Its importance will be highlighted in the thiệu trong tiểu mục 1.6.1. Tầm quan trọng
future sections of this thesis in relation with the của nó sẽ đƣợc nhấn mạnh trong các phần
influence of non-stationarity of a random sau của luận văn này trong mối quan hệ với
process on the detection of its long range ảnh hƣởng của tính không tĩnh của quá trình
dependence degree. Wavelets add literally ngẫu nhiên đến sự phát hiện mức độ phụ
another dimension to Digital Signal Processing, thuộc thời gian dài. Thật vậy, Wavelet sẽ
Instead of processing a signal in the cộng thêm chiều khác vào xử lý tín hiệu số,
time/frequency domain, we can simultaneously Thay vì xử lý tín hiệu trong miền thời gian /
process the signal in time and frequency tần số, chúng ta có thể xử lý đồng thời tín
(scale). From the time-frequencv methods hiệu trong thời gian và tần số (tỷ lệ). Từ các
currently available for high resolution phƣơng pháp thời gian-tần số đã có trong
decomposition in the time-frequency plane hiện tại để phân tích độ phân giải cao trong
(including STFT or Wigner-Ville transform), mặt phẳng thời gian-tần số (bao gồm cả
the wavelet transform appeared to be the STFT hoặc biến đổi Wigner-Ville), biến đổi
favorite tool for researchers due to its high wavelet dƣờng nhƣ là công cụ ƣu chuộng
flexibility and adaptability to a large set of của các nhà nghiên cứu vì tính linh hoạt cao
applications. Another key advantage of wavelet và khả năng thích ứng với rất nhiều ứng
transform is the variety of wavelet functions dụng. Một lợi thế quan trọng khác của biến
available, that allows us to choose the most đổi wavelet là sự đa dạng của các hàm
appropriate for the signal under investigation. wavelet có sẵn, cho phép chúng ta lựa chọn
Wavelet transform analysis has now been thích hợp nhất cho các tín hiệu đang xét.
applied to a wide variety of applications Hiện tại, phân tích biến đổi wavelet đã đƣợc
including time series prediction. Generally, the áp dụng cho một loạt các ứng dụng kể cả
prediction is done with the aid of statistical tiên đoán chuỗi thời gian. Nói chung, các dự
methods or with the aid of neural networks. báo đƣợc thực hiện với sự trợ giúp của
Both types of prediction are speed-up if they phƣơng pháp thống kê hoặc với sự trợ giúp
are applied in the wavelets domain. This của mạng nơron. Chúng ta có thể tăng tốc
increasing of speed is due to the sparsity of the đƣợc cả hai loại dự báo nếu áp dụng chúng
WTs, There are only few wavelet coefficients trong miền Wavelet. Sự tăng tốc này là do
with big values, the majority of the wavelet sự thƣa thớt của các WT. Chỉ có một vài hệ
coefficients have small values and can be số wavelet với giá trị lớn, đa số các hệ số
neglected without loosing a large amount of wavelet có giá trị nhỏ và có thể bỏ qua đƣợc
information. We will refer in Chapter 3 to mà không làm mất mát một lƣợng lớn thông
wavelet based prediction method for WiMAX tin. Trong chƣơng 3, chúng tôi sẽ đề cập
traffic. đến phƣơng pháp tiên đoán lƣu lƣợng tin
của mạng WiMAX dựa trên wavelet.
The performance of any signal processing
method based on wavelets can be improved by Chúng ta có thể cải thiện đƣợc hiệu suất của
the good selection of the wavelet transform bất kỳ phƣơng pháp xử lý tín hiệu nào bằng
used and of its features. For this reason we will cách lựa chọn tốt biến đổi wavelet cũng nhƣ
investigate in section 3,4 the process of mother các tính chất của nó. Vì lý do này, trong
wavelets selection for the proposed traffic phần 3.4, chúng tôi sẽ nghiên cứu quá trình
forecasting procedure, based on the quantities chọn lọc các hàm Wavelet mẹ cho quá trình
defined in section 1,3,1, We will also refer in dự đoán lƣu lƣợng tin đƣợc đề xuất, dựa
Chapter 4 to a LRD detection method based on trên các đại lƣợng đƣợc định nghĩa trong
wavelets. Different wavelet transforms are used mục 1.3.1. Trong chƣơng 4, chúng tôi cũng
in the applications considered in Chapter 3 and sẽ đề cập đến phƣơng pháp phát hiện LRD
Chapter 4, The reasons for these choices are dựa trên các Wavelet. Các biến đổi wavelet
indicated in the corresponding chapters. khác nhau đƣợc sử dụng trong các ứng dụng
đƣợc xét trong chƣơng 3 và chƣơng 4, Lí do
cho những lựa chọn này đƣợc chỉ ra trong
các chƣơng tƣơng ứng.
Definition 3.Standard deviation (): the standard Định nghĩa 3. Độ lệch tiêu chuẩn..: độ lệch
deviation of a random variable is the square tiêu chuẩn của biến ngẫu nhiên là căn bậc
root of the variance. hai của phƣơng sai.
Definition 4. Autocovariance (Y): the
Định nghĩa 4. Tự hiệp phƣơng (Y): tự hiệp
autocovariance of a time-series Xt can be
phƣơng của một chuỗi thời gian XT có thể
defined as:
đƣợc định nghĩa là:
Y(i,j) = E[(X, - ,<HXj - rfj. (2.3)
Y (i, j) = E [(X, -, <HXj - rfj. 2,3%
Definition 5. Autocorrelation function (ACF): Định nghĩa 5. Hàm tự tƣơng quan (ACF):
the autocorrelation function of a time series Xt hàm tự tƣơng quan của chuỗi thời gian XT
is given by: là:
…………………. …………………………………………………………………….
Definition 6. Partial autocorrelation function Định nghĩa 6. Hàm tự tƣơng quan riêng
(PACF): the partial autocorrelation function at phần (PACF): hàm tự tƣơng quan một phần
the lag k is the autocorrelation between Xt and ở độ trễ k là sự tự tƣơng quan giữa Xt và Xt-
Xt-k that is not explained by all lower-order k không đƣợc giải thích bởi tất cả các độ trễ
lags (1 to k-1, inclusive). bậc thấp(bao gồm 1 đến k-1).
………… is the best linear projection of
…….là hình chiếu tuyến tính tốt nhất
………….. của………………..
The PACF will vary between -1 and +1, with Các PACF sẽ thay đổi trong khoảng -1 và 1,
values near 1 indicating stronger correlation, với giá trị gần bằng 1 cho thấy sự tƣơng
PACF is a commonly used tool for model quan mạnh hơn, PACF là một công cụ
identification in Box-Jenkins methodology, thƣờng đƣợc sử dụng để xác định mô hình
identifying the order p of an AR model: the trong phƣơng pháp luận Box-Jenkins, xác
PACF for a AR(p) is nonzero if k < p and zero định bậc p của một mô hình AR: PACF đối
for k > p, [BJR94]. với một AR (p ) khác không nếu k <p và
bằng không khi k> p, [BJR94],
Definition 7.Stationary process: A wide-sense Định nghĩa 7. Quá trình tĩnh: Một quá trình
stationary processXt is a stochastic process tĩnh Xt theo nghĩa rộng là một quá trình
characterized by the fact that its probability ngẫu nhiên đƣợc đặc trƣng ở chổ, phân bố
distribution, mean and variance do not change xác suất, trung bình và phƣơng sai không
over time or position. thay đổi theo thời gian và vị trí.
An example of stationary process is the White
Gaussian Noise (WGN), A Gaussian process is Một ví dụ về quá trình tĩnh là nhiễu Gauss
a stochastic process whose realizations consist trắng (WGN), một quá trình Gauss là một
in random values associated with every point in quá trình ngẫu nhiên mà việc thực thi nó
a range of time such that each random variable liên quan đến các giá trị ngẫu nhiên gắn với
has a normal distribution: mỗi điểm trong khoảng thời gian sao cho
…………………….. mỗi biến ngẫu nhiên có phân phối bình
thƣờng:
……………………….
where parameter is the mean and a2G is the Trong đó tham số là giá trị trung bình và
variance. The distribution with _ 0 and _ 1 is a2G là phƣơng sai. Phân phối với _ 0 và _ 1
called standard normal. đƣợc gọi là phân bố chính tắc.
Một quá trình WGN là một quá trình Gauss
A WGN process is a Gaussian process which
có hàm hiệp phƣơng sai sau đây:
has the following covariance function:
E {WGN(t)WGN(s)} _ aG5(t - s). (2.7) E {WGN (t) WGN (s)} _ aG5 (t -
s). 2.7
An example of non-stationarv process is the Một ví dụ về quá trình không tĩnh là chuyển
fractional Brownian motion (fBm) [Cle04], It is động Brown phân mãnh (FBM) [Cle04], là
a continuous-time Gaussian process BH(t) on một quá trình Gauss liên tục theo thời gian
[0,T], which starts at zero, has expectation zero BH (t) trên [0, T], bắt đầu từ không, có kỳ
for all t G [0,T] and has the following vọng bằng không đối với mọi t G [0, T] và
covariance function: có hàm hiệp phƣơng sai nhƣ sau:
where H is a real number in the interval (0,1), Trong đó H là một số thực trong khoảng
called Hurst parameter [Cle04], The values of (0,1), đƣợc gọi là tham số Hurst [Cle04],
H determines what kind of process the fBm is: Các giá trị của H xác định fBm thuộc loại
quá trình nào:
• if H = 2 the process is in fact a Brownian • nếu H = 2 thực sự quá trình này là chuyển
motion; động Brown;
• if H > 2 increments of the process are
positively correlated; • nếu H> 2 các lƣợng gia của quá trình
tƣơng quan dƣơng;
• if H < 2 increments of the process are • nếu H <2 các lƣợng gia của quá trình
negatively correlated. tƣơng quan âm.
The increment process, X(t) = BH(t + 1) - BH Quá trình tăng, X (t) = BH (t + 1) - BH (t),
(t), is known as fractional Gaussian noise đƣợc gọi là nhiễu Gauss phân mãnh (fGn),
(fGn), The increment process is stationary: Quá trình tăng là tĩnh:
BH(t) - BH(s) ~ BH(t - s).
BH (t) - BH (s) ~ BH (t - s).
2.2 Basic Stochastic Model in Time-series 2.2 Mô hình ngẫu nhiên cơ bản trong phân
Analysis tích chuỗi thời gian
Autoregressive (AR) Process of Order p
Quá trình Tự hồi quy (AR) bậc p
An Autoregressive model of order p (AR(p)) is
Một mô hình tự hồi quy bậc p (AR (p)) là
a weighted linear sum of the past p values
một tổng tuyến tính có trọng số của p giá trị
[ChaOl] and it is defined by the following
quá khứ (trƣớc đó) [ChaOl] và nó đƣợc định
equation:
nghĩa qua phƣơng trình sau:
where Xt represent the time series which model Trong đó XT biểu diễn các chuỗi thời gian
must be established, 0p(.) is a pth degree mà mô hình phải đƣợc thiết lập, 0p (.) là
polynomial and Zt is a white noise time series. một đa thức bậc p và ZT là một chuỗi thời
gian nhiễu trắng.
Moving Average (MA) Process of Order q Quá trình trung bình trƣợt (MA) bậc q
Moving average (MA) process of order q is a Quá trình trung bình trƣợt (MA) bậc q là
weighted linear sum of the past q random một tổng tuyến tính có trọng số của q biến
shocks: cố sốc ngẫu nhiên trong quá khứ:
(2.11)
(2.11)
where Qq(.) is a qth degree polynomial and Zt
is a white random process with constant Trong đó Qq (.) là một đa thức bậc q và ZT
variance and zero mean [ChaOl], là một quá trình ngẫu nhiên trắng với
phƣơng sai không đổi và trung bình bằng
không [ChaOl],
Autoregressive Moving Average Model Mô hình trung bình trƣợt tự hồi quy
(ARMA) (ARMA)
Given a time series of data Xt, the Cho trƣớc một chuỗi dữ liệu thời gian Xt,
Autoregressive moving average model mô hình trung bình trƣợt tự hồi quy là một
(ARMA) is a tool for understanding and công cụ để hiểu và tiên đoán các giá trị
predicting future values in this series. The tƣơng lai trong các chuỗi này. Mô hình này
model consists of two parts, an autoregressive bao gồm hai phần, phần tự hồi quy (AR) và
(AR) part and a moving average (MA) part. phần trung bình trƣợt (MA). Thông thƣờng,
The model is usually then referred to as the mô hình này đƣợc gọi là mô hình ARMA
ARMA(p,g) model where p is the order of the (p, g) trong đó p là bậc của phần tự hồi quy
autoregressive part and q is the order of the và q là bậc của phần trung bình trƣợt.
moving average part.
A time series Xt is an ARMA(p,q) process if Xt Chuỗi thời gian Xt là một quá trình
is stationary and if: ARMA(p,q) nếu Xt là tĩnh và nếu:
……………….
which can be expressed as: Có thể đƣợc biểu diễn dƣới dạng:
…………………
where 0p(.) and 9q(.) are pt^d qth degree trong đó và là các đa thức bậc p và
polynomials, and B is the backward shift q, và B là toán tử dịch chuyển ngƣợc
operator (Bj Xt _ Xt-j; Bj Zt _ Zt-j , j = 0, (……………),
±1,,,,),
ARM Một quy trình khớp mô hình giả sử dữ
The ARM A model fitting procedure assumes
liệu là tĩnh. Nếu chuỗi thời gian thể hiện sự
the data to be stationary If the time series
biến đổi vi phạm giả thuyết tĩnh, thì có
exhibits variations that violate the stationary
những phƣơng pháp đặc biệt có thể đƣợc sử
assumption, then there are specific approaches
dụng để làm cho các chuỗi thời gian tĩnh.
that could be used to render the time series
Nhƣ chúng ta sẽ thấy trong phần sau, các
stationary. As we will see in a following sub-
chuỗi thời gian tĩnh là chuỗi mà tính chất
section a stationary time series is one whose
thống kê của nó nhƣ trung bình, phƣơng sai,
statistical properties such as mean, variance,
tự tƣơng quan, vv, bất biến theo thời gian.
autocorrelation, etc, are invariant in time. Most Đa số các phƣơng pháp dự báo thống kê dựa
statistical forecasting methods are based on the trên giả thuyết chuỗi thời gian có thể đƣợc
assumption that the time series can be rendered
làm cho gần tĩnh (tức là, "đƣợc tĩnh hóa")
approximately stationary (i.e., "stationarized")
thông qua việc sử dụng các biến đổi toán
through the use of mathematical học. Một chuỗi tĩnh hóa tƣơng đối dễ tiên
transformations, A stationarized series is
đoán: Đơn giản, bạn chỉ cần tiên đoán đơn
relatively easy to predict: you simply predict
giản rằng các tính chất thống kê của nó
that its statistical properties will be the same in
trong tƣơng lai cũng giống nhƣ trong quá
the future as they have been in the past! The
khứ! Thế thì, các dự đoán cho các chuỗi tĩnh
predictions for the stationarized series can then
hóa có thể không bị ―chuyển đổi‖, bằng
be "untransformed", by reversing whatever
cách đảo ngƣợc bất cứ biến đổi toán học nào
mathematical transformations were previously
đƣợc sử dụng trƣớc đây, để thu đƣợc các
used, to obtain predictions for the original
tiên đoán cho các chuỗi ban đầu. Vì vậy,
series. Thus, finding the sequence of
việc tìm kiếm các phép biến đổi cần thiết để
transformations needed to stationarize a time tĩnh hóa chuỗi thời gian thƣờng cung cấp
series often provides important clues in the
cho chúng ta những bằng chứng quan trọng
search for an appropriate forecasting model.
trong việc tìm kiếm một mô hình dự báo
One of the operations which can be used for the
thích hợp. Một trong những phép toán có
stationarization of a time series is the
thể đƣợc sử dụng để tĩnh hóa chuỗi thời
differencing operation. The first difference of a
time series is the series of changes from one gian là phép toán sai phân. Sai phân bậc
period to the next. If Y(t) denotes the value of nhất của một chuỗi thời gian là một chuỗi
the time series Y at period t, then the first những thay đổi từ một chu kỳ đến chu kỳ
difference of Y at period t is equal to Y(t) — tiếp theo. Nếu Y (t) biểu diễn giá trị của
Y(t — 1). If the first difference of Y is chuỗi thời gian Y ở chu kỳ t, thì sai phân
stationary and also not autocorrelated, then Y is bậc nhất của Y ở chu kỳ t bằng Y (t) - Y (t -
described by a random walk model: each value 1). Nếu sai phân bậc nhất của Y tĩnh và
is a random step away from the previous value. cũng không tự tƣơng quan, thì Y đƣợc mô tả
If the first difference of Y is stationary but auto bởi mô hình bƣớc ngẫu nhiên: mỗi giá trị là
correlated, then a more sophisticated một bƣớc ngẫu nhiên đi từ giá trị trƣớc đó.
forecasting model such as exponential Nếu sai phân bậc nhất của Y tĩnh nhƣng tự
smoothing or ARIMA may be appropriate. tƣơng quan, thế thì một mô hình tinh vi hơn
chẳng hạn nhƣ làm trơn hàm mũ hoặc
ARIMA có thể thích hợp hơn.
2.2.1 Autoregressive Integrated Moving 2.2.1 Mô hình trung bình trƣợt tích hợp tự
Average Model (ARIMA) hồi quy (ARIMA)
Autoregressive integrated moving average Mô hình trung bình trƣợt tích hợp hồi quy
(ARIMA) model is a generalization of an (ARIMA) là sự tổng quát hóa của mô hình
ARMA model. In statistics and signal ARMA. Trong thống kê và xử lý tín hiệu,
processing, ARIMA models, sometimes called các mô hình ARIMA, đôi khi đƣợc gọi là
Box- Jenkins models after the iterative Box- các mô hình Box-Jenkins sau khi áp dụng
Jenkins methodology usually applied to phƣơng pháp lặp Box-Jenkins để ƣớc tính
estimate them, are usually modeled for time chúng, thƣờng đƣợc mô hình hóa đối với dữ
series data. liệu chuỗi thời gian,
ARIMA models are fitted to time series data Các mô hình ARIMA đƣợc khớp với dữ liệu
either to better understand the data or to predict chuỗi thời gian để hiểu dữ liệu tốt hơn hoặc
future points in the series. They are applied in để tiên đoán các điểm tƣơng lai trong chuỗi.
some cases where data show evidence of non- Chúng đƣợc áp dụng trong một số trƣờng
stationaritv, when some initial differencing hợp dữ liệu thể hiện tính chất không tĩnh,
steps must be applied to remove the non- khi một số bƣớc sai phân ban đầu phải đƣợc
stationarity. áp dụng để loại bỏ tính chất không tĩnh.
Mô hình này thƣờng đƣợc gọi là (p, <i, g)
The model is generally referred to as an
mô hình ARIMA trong đó p, d, và q là các
ARIMA(p,<i,g) model where p, d, and q are
số nguyên lớn hơn hoặc bằng không và lần
integers greater than or equal to zero and refer
lƣợt chỉ bậc tự hồi quy, tích phân (số bƣớc
to the order of the autoregressive, integration
sai phân cần thiết để đạt đƣợc tính chất
(number of differencing steps needed to
tĩnh), và các phần trung bình trƣợt của mô
achieve stationaritv), and moving average parts
of the model respectively, hình,
0(B)(1 - B)dXt _ d(B)Zt. (2.14)
0 (B) (1 - B) dXt _ d (B) ZT. (2.14)
A generalization of standard ARIMA(p,<i,g) Một tổng quát về các quá trình ARIMA tiêu
processes is the Fractional ARIMA model chuẩn (p, d, q) là mô hình ARIMA phân
referred to as FARIMA (p,<i,g) [MMS08], The đoạn gọi là FARIMA (p, d, q) [MMS08]. Sự
difference between ARIMA and FARIMA khác nhau giữa ARIMA và FARIMA là bậc
consist in the degree of differencing d, which sai phân d, đối với các mô hình FARIMA,
for FARIMA models takes real values. đại lƣợng này là số thực.
………………..
2.2.2 Phƣơng pháp Box-Jenkins
2.2.2 Box-Jenkins Methodology
Phƣơng pháp Box-Jenkins [BJE94] áp dụng
The Box-Jenkins methodology [BJE94] applies
cho các mô hình ARMA hoặc ARIMA để
to ARM A or ARIMA models to find the best
tìm khớp chuỗi thời gian tốt nhất với các giá
fit of a time series to its past values, in order to
trị quá khứ của nó, để đƣa ra dự báo.
make forecasts.
The original methodology uses an iterative Phƣơng pháp ban đầu sử dụng một cách tiếp
three-stage modeling approach: cận mô hình ba giai đoạn lặp:
3. Model checking by testing whether the 3. Kiểm tra mô hình bằng cách kiểm tra
estimated model conforms to the specifications xem mô hình đƣợc ƣớc tính có tính chất của
of a stationary univariate process. In particular, một quá trình tĩnh một biến hay không. Đặc
the residuals (elements of the time series that biệt, các số dƣ (các phần tử của chuỗi thời
have no signification) should be as small as gian không có ý nghĩa) nên càng nhỏ càng
possible and should not follow a model. If the tốt và không nên tuân theo mô hình. Nếu
estimation is inadequate, we have to return to việc ƣớc tính không thích hợp, chúng ta
step one and attempt to build a better model. phải quay trở lại bƣớc một và thử xây dựng
một mô hình tốt hơn.
Sau khi đã lựa chọn đƣợc mô hình, ƣớc tính
Once the model has been selected, estimated và kiểm tra, bƣớc tiếp theo chúng ta phải
and checked, the next step is to compute tính toán dự báo.
forecasts.
2.3 Parameter Estimation and Order 2.3 Ƣớc tính tham số và tiêu chí lựa chọn
Selection Criteria bậc
Việc xác định một mô hình ARMA thích
The determination of an appropriate ARMA(p,
q) model to represent an observed stationary hợp (p, q) để biểu diễn các chuỗi thời gian
time series involves the order p and q selection tĩnh đƣợc quan sát liên quan đến việc chọn
and estimation of the mean, the coefficients 0p bậc p và q và ƣớc tính trung bình, các hệ số
and 9q, and the white noise variance a2. 0p và 9Q, và phƣơng sai nhiễu trắng a2.
When p and q are known, good estimators of 0
and Q can be found bv imagining the data to be Khi đã biết p và q, chúng ta có thể tìm thấy
observations of a stationary Gaussian time đƣợc các ƣớc lƣợng tốt của 0 và Q bằng
series and maximizing the likelihood with cách hình dung các dữ liệu là sự quan sát
respect to the parameters 0p, Qq and a2. The các chuỗi thời gian Gauss tĩnh và tối đa hóa
estimators obtained using this procedure are khả năng đối với các tham số 0p, Qq và a2.
known as maximum likelihood estimators, Các ƣớc lƣợng thu đƣợc từ phƣơng pháp
này đƣợc gọi là ƣớc lƣợng hợp lí cực đại.
2.3.1 Maximum Likelihood Estimation (MLE) 2.3.1 Ƣớc lƣợng hợp lí cực đại (MLE)
Maximum likelihood estimation (MLE) is the Ƣớc lƣợng hợp lí cực đại (MLE) là phƣơng
most popular method used for parameter pháp phổ biến nhất đƣợc sử dụng để ƣớc
estimation in statistics. The aim of this method lƣợng tham số trong thống kê. Mục đích của
is to determine the parameters that maximize phƣơng pháp này là xác định các tham số
the probability of observations. The likelihood làm cho xác suất quan sát cực đại. Hàm khả
function of data set represents the probability of năng của tập dữ liệu biểu diễn xác suất thu
obtaining that particular data set given that the đƣợc tập dữ liệu cụ thể đó miễn là mật độ
probability density is known, A detailed xác suất đã biết, một cách tiếp cận lý thuyết
theoretical approach regarding MLE is chi tiết về MLE đƣợc trình bày trong
presented in [HT89], [HT89],
In the following the problem of selecting
Trong phần tiếp theo, chúng ta sẽ thảo luận
appropriate values for the orders p and q will be
vấn đề chọn lựa các giá trị thích hợp cho các
discussed. Several criteria have been proposed
bậc p và q. Một số tiêu chí đã đƣợc đề xuất
in the literature, since the problem of model
trong các tài liệu, bởi vì bài toán lựa chọn
selection arises frequently in statistics, [BD02],
mô hình thƣờng xuyên nảy sinh trong thống
kê [BD02],
2.3.2 Final Prediction Error (FPE) 2.3.2 Lỗi dự đoán cuối cùng (FPE)
Developed by Akaike in 1969, FPE criterion is
used to select the appropriate order of an AR Do Akaike xây dựng vào năm 1969, tiêu chí
process to fit to a time series X1; ...,Xn, The FPE đƣợc sử dụng để lựa chọn bậc thích
most accurate model has the smallest FPE, The hợp của quá trình AR để khớp với một
FPE for an AR process of order p can be chuỗi thời gian X1, ..., Xn, Mô hình chính
estimated according to the following equation: xác nhất có FPE nhỏ nhất, FPE đối với một
(2.16) quá trình AR bậc p có thể đƣợc ƣớc tính
where n is the number of samples,
theo công thức sau:
(2.16)
trong đó n là số mẫu,
2.3.3 Akaike information criterion (AIC)
2.3.3 Tiêu chuẩn thông tin Akaike (AIC)
AIC is a measure of the goodness of fit of an
AIC là một thƣớc đo về mức độ tốt của quá
estimated statistical model. In fact, AIC is the
trình khớp mô hình thống kê đƣợc ƣớc
generalization of maximum likelihood
tính.Trong thực tế, AIC là sự khái quát hóa
principle. Given observations X1,...,Xn of an
của nguyên tắc hợp lý tối đa. Đối với các
ARMA process the AIC statistic is defined as:
quan sát X1, ..., Xn nhất định của một quá
trình ARMA, thống kê AIC đƣợc định nghĩa
là:
where L is the likelihood function. Trong đó L là hàm khả năng.
The AICC is a bias-correeted version of the Các AICC là một phiên bản bias-eorreeted
AIC, proposed by Hurvich, [HT89], This (chênh lệch-chính xác hóa) của AIC, do
criterion is applied as follows: choose p, q, 0p, Hurvich đề xuất, [HT89]. Tiêu chuẩn này
and 9q to minimize: đƣợc áp dụng nhƣ sau: chọn p, q, 0p, và 9Q
……………………….. để cực tiểu hóa:
where n is the number of samples. trong đó n là số mẫu.
2.3.4 Tiêu chuẩn thông tin Bayesian (BIC)
2.3.4 Bayesian Information Criterion (BIC)
In the case of AICC and AIC statistics, for n ^ Trong trƣờng hợp thống kê AICC và AIC,
ro, the factors 2(p + g + l)n/(n- p-q-2) đối với n ^ ro, các thừa số 2 (p + g + l) n /
respective 2(p + g + 1) are asymptotically (n-PQ-2) tƣơng ứng 2 (p + g + 1) có tính
equivalent, BIC is another criterion for model chất tƣơng đƣơng tiệm cận, BIC là một tiêu
selection, that attempts to correct the overfitting chí khác để lựa chọn mô hình, mục đích của
nature of the AIC, [HT89], For a zero-mean nó là chính xác hóa bản chất overfitting của
causal invertible ARMA(p, g) process, BIC is AIC, [HT89]. Đối với một quá trình ARMA
defined by the following equation: (p, g) khả nghịch nhân quả trung bình bằng
không, BIC đƣợc xác định bởi phƣơng trình
sau:
Overfitting: quá khớp dữ liệu
We define the sum squared error (SSE): Chúng ta định nghĩa tổng bình phƣơng lỗi
…………………… (SSE) nhƣ sau:
where e(t) represents the error of the model.
trong đó e (t) biểu diễn sai số của mô hình.
We denote the following sum with (SSX):
…………………………… Chúng ta kí hiệu tổng sau đây bằng (SSX):
where y(t) is the observed response of the
model. trong đó y (t) là đáp ứng quan sát đƣợc của
mô hình.
The total sum of squares (SST) is defined as the Tổng bình phƣơng toàn phần (SST) đƣợc
uncertainty that would be present if one had to định nghĩa là sự không chắc chắn sẽ xuất
predict individual responses without any other hiện nếu chúng ta phải tiên đoán từng đáp
information. The best one could do is to predict ứng mà không có bất kỳ thông tin nào khác.
each observation to be equal to the sample Điều tốt nhất chúng ta có thể làm là tiên
mean. So, we compute SST as: đoán mỗi quan sát là nhƣ nhau đối với trung
……………………….. bình mẫu.Vì vậy, chúng ta có thể tính SST
là:
where y(t) represents the me an of y(t). trong đó y (t) biểu diễn trung bình của y (t).
The ANOVA methodology splits this Phƣơng pháp ANOVA chia sự biến đổi này
variability into two parts. One component is thành hai phần. Một thành phần liên quan
accounted for by the model and it corresponds đến mô hình và nó tƣơng ứng với việc giảm
to the reduction in uncertainty that occurs when tính không chắc chắn xuất hiện khi mô hình
the regression model is used to predict the hồi quy đƣợc sử dụng để tiên đoán đáp ứng.
response. The remaining component is the Thành phần còn lại là tính không chắc chắn
uncertainty that remains even after the model is còn lại thậm chí sau khi mô hình đƣợc sử
used. We define the regression sum of squares, dụng. Chúng ta định nghĩa tổng bình
SSR, as the difference between SST and SSE. phƣơng hồi quy SSR là hiệu giữa SST và
This difference represents the sum of the SSE. Hiệu này biểu diễn tổng bình phƣơng
squares explained by the regression. đƣợc giải thích bằng hồi quy.
The fraction of the variance that is explained by Các phần của phƣơng sai đƣợc giải thích
the regression determines the good-ness of the bằng hồi quy xác định mức độ tốt của hồi
regression and is called the coefficient of quy và đƣợc gọi là hệ số quyết định R2. Hệ
determination, R2. The coefficient of số xác định có thể đƣợc biểu diễn bằng công
determination can be expressed by the công thức sau:
following formula:
The model is considered to be statistically
significant if it can account for a large fraction Mô hình đƣợc xem là tĩnh nếu nó tính đến
of the variability in the response, i.e. yields một phần lớn của biến đổi trong đáp ứng,
large values for R2 tức là mang lại giá trị R2 lớn.
2.5 Measuring the Performance of a
2.5 Đo hiệu suất của một mô hình dự báo
Forecasting Model
The performance of the forecasting model can Hiệu suất của mô hình sự báo có thể đƣợc
be judged from its predictive ability in terms of đánh giá qua khả năng tiên đoán của nó theo
the following well-known evaluation criteria: tiêu chuẩn đánh giá phổ biến sau đây:
1, Symmetrical Mean Absolute Percentage 1. Sai số phần trăm tuyệt đối đối xứng trung
Error (SMAPE), bình (SMAPE),
2, Mean Absolute Percentage Error 2, Sai số phần trăm tuyệt đối (MAPE),
(MAPE),
3, Mean Absolute Error (MAE), 3, Sai số tuyệt đối trung bình (MAE),
SMAPE calculates the symmetric absolute
error between the actuals X and the forecast F SMAPE tính sai số tuyệt đối đối xứng giữa
across all observations t of the test set of size n: X thực và F dự báo trên tất cả các quan sát t
………… của tập kiểm tra kích thƣớc n:
MAPE is calculated as follows: MAPE đƣợc tính nhƣ sau:
……………………
MAE measures how close forecasts or MAE đặc trƣng cho mức độ gần đúng của
predictions are to the eventual outcomes and dự báo hoặc dự đoán với kết quả cuối cùng
has the following expression: và có biểu thức nhƣ sau:
……………….. 2.6 Phân tích thống kê DWT bậc hai
2.6 Second Order DWT Statistical Analysis
Let x(t) be a wide sense stationary random Cho x (t) là một tín hiệu ngẫu nhiên tĩnh
signal. The DWT coefficients of its projection theo nghĩa rộng. Các hệ số DWT của hình
on a space V0 are: chiếu của nó trên không gian V0 là:
The autocorrelation of this sequence is:
…… Sự tự tƣơng quan của chuỗi này là:
or, using Parseval theorem we obtain:
…………………….. hoặc bằng cách sử dụng định lý Parseval ta
Taking into consideration that the wavelets are có:
real functions: Nếu xét đến việc các Wavelet là hàm thực:
………………….
But: Nhƣng:
………………….
và
and:
…………………….. ...hoặc...
or:
………………………
After changing the variable v = 2mu we obtain: Sau khi đổi biến v = 2mu ta có:
………………………
The last integral can be decomposed into a Tích phân cuối cùng có thể đƣợc phân tích
series of integrals on intervals of length 2n: thành một chuỗi các tích phân trên khoảng
………………….. có chiều dài 2n:
After changing again the variable w = v — 2pn
we obtain: Sau khi đổi biến một lần nữa w = v - 2PN ta
có:
…………………………
If the DWT is computed using orthogonal Nếu DWT đƣợc tính bằng các Wavelet trực
wavelets, then: giao, thì:
……………………..
and equation (2.38) becomes: và phƣơng trình (2.38) trở thành:
…………….
Tích phân trong phƣơng trình (2.41) tỷ lệ
The integral in equation (2.41) is proportional
thuận với biến đổi Fourier rời rạc nghịch
with the inverse discrete Fourier transform of
đảo của 1, bằng với chuỗi 5 [k - /], Vì vậy,
the constant 1, which equals the sequence 5[k
phƣơng trình (2.41) có thể đƣợc viết là:
— /], So, equation (2.41) can be written:
Hence, the sequence d^[n] is not correlated. So, Do đó, chuỗi d ^ [n] không tƣơng quan. Vì
we just proved that asymptotically (when the vậy, chúng ta vừa chứng minh nó tiệm cận
number of decomposition levels tends to (khi số mức phân tích tiến đến vô cùng), các
infinity), the DWT decorrelates the input DWT giải tƣơng quan quá trình ngẫu nhiên
random process. đầu vào.
The means and the variances of the DWT Các giá trị trung bình và phƣơng sai của các
coefficients are computed in the following, hệ số DWT đƣợc tính nhƣ sau,
…………………..
After applying Fubini’s theorem, the equation Sau khi áp dụng định lý Fubini, phƣơng
(2.43) becomes: trình (2.43) trở thành:
………………………
Using the equation (2.33), the expectation of Sử dụng phƣơng trình (2.33), kỳ vọng của
the wavelet coefficients becomes: các hệ số wavelet trở thành:
E {dm[k]} = ^2—mF{r} (0) = 0 (2.45)
because F {r} (0) = 0.
So, the expectation of each wavelet coefficients Vì vậy, kỳ vọng của mỗi chuỗi hệ số
sequence is null. The variance of the detail wavelet bằng không. Chúng ta có thể tính
wavelet coefficients can be computed with the phƣơng sai của các hệ số wavelet chi tiết
aid of their autocorrelation function in (2.36) bằng hàm tự tƣơng quan của chúng trong
because they have null expectation: (2.36), vì chúng có kỳ vọng bằng không:
For m —— the previous equation becomes:
Khi , phƣơng trình trƣớc đó trở
thành:
for orthogonal wavelets. Đối với các Wavelet trực giao.
Hence, asymptotically, the detail wavelet Do đó, về mặt tiệm cận, các hệ số wavelet
coefficients represent a zero mean white noise chi tiết biểu diễn nhiễu trắng trung bình
with the variance equal with the value of the bằng không với phƣơng sai bằng với giá trị
power spectral density of the input signal của mật độ phổ công suất của tín hiệu đầu
computed in zero. This variance depends only vào đƣợc tính ở giá trị không. Phƣơng sai
on the input process being independent of the này chỉ phụ thuộc vào quá trình đầu vào độc
mother wavelets used in the implementation of lập với các hàm Wavelet mẹ đƣợc sử dụng
the DWT. trong việc thực thi DWT.
In the following is analyzed an interesting Trong phần tiếp theo, chúng ta sẽ phân tích
particular case when the input process is a zero một trƣờng hợp đặc biệt lý thú khi quá trình
mean white noise with the variance equal to a2. đầu vào có nhiễu trắng trung bình bằng
In this ease, F{Rx(t)} (u) = a2 and the equation không với phƣơng sai bằng hai. Trong
(2.38) becomes: trƣờng hợp này, F {Rx (t)} (u) = a2 và
………………………… phƣơng trình (2.38) trở thành:
In the ease of orthogonal wavelets the previous Trong trƣờng hợp các Wavelet trực giao,
equation can be written: phƣơng trình trƣớc có thể đƣợc viết là:
(2.49)
(2.49)
So, if the input process is a white noise with Vì vậy, nếu quá trình đầu vào là nhiễu trắng
zero mean and variance a2, then all the wavelet với giá trị trung bình bằng không và phƣơng
coefficients are zero mean white noises with sai a2, thì tất cả các hệ số wavelet là các
the same variance as the input process. nhiễu trắng có trung bình bằng không với
phƣơng sai tƣơng tự nhƣ quá trình đầu vào.
The DWT does not correlate the white noise. DWT không tƣơng quan với nhiễu trắng.
This result could seem a paradox, taking into Kết quả này có thể đƣợc xem là một nghịch
consideration the quadrature mirror filters used lý, nếu xét đến các bộ lọc gƣơng cầu
for the implementation of the DWT because phƣơng đƣợc sử dụng để thực thi DWT vì
any filter correlates the white noise. When the bất kỳ bộ lọc nào cũng tƣơng quan với
input signal of the DWT is a white noise, then nhiễu trắng. Khi tín hiệu đầu vào của DWT
the sequences of detail coefficients from any là một nhiễu trắng, thì chuỗi các hệ số chi
decomposition level of the DWT are white tiết từ bất kỳ mức phân tích nào của DWT
noises as well, having the same variance. cũng là các nhiễu trắng, có phƣơng sai
tƣơng tự.
Một trƣờng hợp đặc biệt quan trọng khác,
Another important particular case, when the khi quá trình ngẫu nhiên đầu vào của DWT
DWT’s input random process has long range có sự phụ thuộc thời gian dài, sẽ đƣợc xem
dependence, will be treated in a following xét trong phần sau, liên quan đến vấn đề
section, in connection with the problem of ƣớc tính tham số Hurst. Trong phần đó,
Hurst parameter estimation. We will propose in chúng tôi sẽ đề xuất một phƣơng pháp mới
that section a new method for the estimation of để tính tham số Hurst cho các quá trình
the Hurst parameter for long range dependent ngẫu nhiên tĩnh phụ thuộc thời gian dài.
stationary random processes.
2.7 Self-similarity and Long-Range 2.7 Sự tự đồng dạng và sự phụ thuộc thời
Dependence gian dài
Trong phần này, chúng tôi sẽ giới thiệu khái
In this section we will introduce the concepts of
niệm tự đồng dạng và phụ thuộc thời gian
self-similarity and long range dependence
dài đƣợc áp dụng để phân tích lƣu lƣợng tin
which will be applied to the analysis of
của các mạng truyền thông trong Chƣơng 4.
communication networks traffic in Chapter 4.
Sự tự đồng dạng, hoặc bất biến tỷ lệ là một
Self-similarity, or seale-invarianee, is an
khái niệm quan trọng giúp chúng ta hiểu
important notion in the understanding of
đƣợc lƣu lƣợng tin của mạng [KP99], một
network traffic, [KP99], A process is self-
quá trình đƣợc gọi là tự đồng dạng nếu tính
similar if its statistical behavior is independent
chất thống kê của nó không phụ thuộc vào
of the time-scale, meaning that the statistical
thang thời gian, [Rut06], Trong những năm
characteristics of the process may appear
qua, đã có hàng loạt nghiên cứu về vấn đề
similar at different time scales, [Rut06], In the
đo lƣu lƣợng tin từ các mạng truyền thông
last years there have been made a series of
khác nhau. Những nghiên cứu này đã chứng
empirical studies on traffic measurements from
minh rằng lƣu lƣợng tin thực sự là tự đồng
various communication networks. These
dạng (fractal) hoặc phụ thuộc thời gian dài,
studies have proved that the actual traffic is
[KFR02], [CB97], [LTWW93], [KP99],
self-similar (fractal) or long-range dependent,
[KFR02], [CB97], [LTWW93], [KP99], [UP02], [AV98], [OSOl], [ GS09], Vì vậy,
[UP02], [AV98], [OSOl], [GS09], Thus, ngƣời ta đã đƣa ra một số mô hình của các
several models of long-range dependent quá trình phụ thuộc thời gian dài. Các mô
processes have been introduced. The most well- hình về quá trình phụ thuộc thời gian dài
known models of long-range dependent phổ biến nhất là fGn (tức là tự đồng dạng
processes are fGn (thus second-order self- bậc hai) và Karima. [KMF04], có một số
similarity) and KARIMA. [KMF04], There is a định nghĩa khác nhau về sự tự đồng dạng.
number of different definitions for self- Xét một quá trình liên tục về thời gian Y =
similarity. Considering a continuous-time Y (t), chúng ta định nghĩa sự tự đồng dạng
process Y = Y(t), we define its self-similarity của nó theo nghĩa phân phối chiều hữu hạn:
in the sense of finite dimensional distributions:
Definition 8. The process Y(t), t > 0 is self- Định nghĩa 8. Quá trình Y (t), t> 0 là tự
similar with self-similarity parameter H (Hurst đồng dạng với tham số tự đồng dạng H
parameter) if: (tham số Hurst) nếu:
Y (t) = a HY(at), Vt > 0, Va > 0, 0 < H < 1. Y (t) = một HY (at), VT> 0, Va> 0, 0 <H
<1.
The process Y can never be stationary because Quá trình Y không bao giờ tĩnh bởi vì từ
stationaritv implies Y(t) = Y(at), but Y is tĩnh có nghĩa là Y(t)=Y(at), nhƣng Y đƣợc
assumed to have stationary increments. giả sử là có các lƣợng gia tĩnh.
Xét một quá trình ngẫu nhiên thời gian rời
Considering a discrete time stochastic process
rạc hoặc các chuỗi thời gian (ví dụ nhƣ lƣu
or time series (for example the traffic volume,
lƣợng tin, đƣợc tính theo gói tin, byte, hoặc
measured in packets, bytes, or bits), X(t), with t
bit), X (t), với t GZ, chúng ta định nghĩa sự
G Z, we define the second-order self-similarity,
tự đồng dạng bậc hai, tƣơng ứng với tự
respective the asymptotically second-order self-
đồng dạng bậc hai tiệm cận [KP99],
similarity, [KP99],
where 7(k) represents the autocovariance ở đây 7 (k) biểu diễn hàm tự hiệp phƣơng
function of the m-aggregated process X(m) of sai của quá trình kết hợp m X(m) của X ở
X at aggregation level m. mức kết hợp m.
X(m) is defined as:
X (m) đƣợc định nghĩa là:
If X is the increment process of a self-similar Nếu X là quá trình tăng của một quá trình tự
process Y defined in (2,50),….., then for all đồng dạng Y đƣợc định nghĩa trong (2,50),
integers m: …thì đối với mọi số nguyên m:
X is self-similar when it has the same ACF p(k) X là tự đồng dạng khi nó có ACF p(k) giống
as the series X(m) for all m, where p(k) is nhƣ chuỗi X (m) đối với mọi m, trong đó p
defined as follows: (k) đƣợc định nghĩa nhƣ sau:
X is exactly self-similar if the relation (2,53) is
satisfied for every m, [WPT98], X chính là sự tự đồng dạng nếu hệ thức
(2.53) đƣợc thỏa mãn đối với mọi m
[WPT98],
A stationary sequence X is asymptotically self- Một chuỗi X tĩnh là tự đồng dạng tiệm cận
similar if the relation (2,52) is satisfied for m nếu hệ thức (2,52) thỏa mãn đối với m,
—— to, [WPT98], [WPT98],
From Definition 8 and 9 we can observe that a Từ định nghĩa 8 và 9, chúng ta có thể thấy
random process could be self-similar or exactly rằng một quá trình ngẫu nhiên có thể là tự
self-similar. The second concept, the exact self- đồng dạng hoặc tự đồng dạng chặt chẽ. Khái
similarity, imposes a certain structure for the niệm thứ hai, tự đồng dạng chặt chẽ, áp đặt
autocorrelation of the corresponding random một cấu trúc nhất định cho sự tự tƣơng quan
process (given in equation (2,51)), This của quá trình ngẫu nhiên tƣơng ứng (đƣợc
constraint can be considered further in its exact đƣa ra trong phƣơng trình (2.51)). Ràng
form or only asymptotically. buộc này có thể đƣợc xem xét thêm dƣới
dạng chính xác của nó hoặc chỉ ở dạng tiệm
cận.
Processes with LED are often confused with Các quá trình với LRD thƣờng bị nhầm lẫn
self-similar processes, but they are different, với các quá trình tự đồng dạng, nhƣng
meaning that some self-similar processes may chúng khác nhau, có nghĩa là các quá trình
exhibit LED, but not all processes having LED tự đồng dạng có thể có tính chất LRD,
are self-similar. nhƣng không phải tất cả các quá trình có
tính chất LRD đều đồng dạng.
Dạng 7 (k) = (k + 1) 2H - 2k2H + (k - 1) 2H
The form 7(k) = (k + 1)2H — 2k2H + (k —
trong phƣơng trình (2,51) từ Định nghĩa 9
1)2H in equation (2,51) from Definition 9 is
có liên quan đến LRD. Hàm tự tƣơng quan
related to LED, The autocorrelation function of
của nhiễu Gaussian phân đoạn (fGn) thõa
a fractional Gaussian noise (fGn) satisfies the
mãn phƣơng trình sau, [OSOl]:
following equation, [OSOl]:
For k=0 the equation (2,55) will be: Đối với k = 0 phƣơng trình (2,55) sẽ là:
We can observe that in this case the value in 0 Trong trƣờng hợp này, chúng ta có thể thấy
of the ACF do not depend on H. For H=0 the rằng giá trị trong … của ACF không phụ
equation (2.55) will be: thuộc vào H. Khi H = 0, phƣơng trình (2.55)
p(k) = 0, k = 0, sẽ là:
meaning that: p (k) = 0, k = 0,
PM = { 0;2' I = 0 (2.58)
có nghĩa là:
PM = {0, 2 'I = 0 (2,58)
which represent the autocorrelation of a white Biểu diễn sự tự tƣơng quan của nhiễu trắng.
noise. Khi H = 0, fGn trở thành nhiễu trắng, không
For H = 0 the fGn becomes a white noise, biểu hiện LRD,
which does not manifest LRD,
In [Cle05] the asymptotically behavior of the Trong [Cle05], các tác giả phân tích tính
autocorrelation of a fGn is analyzed. chất tiệm cận của quá trình tự tƣơng quan
của fGn.
Nếu tham số Hurst nằm trong khoảng từ 0
If Hurst parameter is between 0 and 0,5:
đến 0,5:
p(k) — H(2H - 1)k2H-2, (2.59)
p (k) - H (2H - 1) k2H-2, (2.59)
while if 0,5 <H <1, the autocorrelation has an trong khi nếu 0,5 <H <1, sự tự tƣơng quan
asymptotically behavior, [Cle05]: có tính chất tiệm cận, [Cle05]:
p(k) — cpk a, (2,60) p (k) - cpk một, (2,60)
with 0 < a < 1 and cp is a positive constant. At với 0 <a <1 và cp là một hằng số dƣơng. Tại
the border between the two asymptotically biên giữa hai đặc tính tiệm cận đƣợc mô tả
behaviors described in equations (2,59) and trong các phƣơng trình (2.59) và (2,60) nằm
(2,60) lies the case : H = 0,5, In the case of trong trƣờng hợp: H = 0,5, Trong trƣờng
equation (2,59): hợp phƣơng trình (2.59):
………………… …………………………..
The series with the general term k2H-2 Chuỗi với số hạng tổng quát k2H-2 đƣợc
described in (2.59) is convergent. In the mô tả trong (2.59) hội tụ. Trong
case of (2.60): trƣờng hợp (2.60):
………………..
So, the convergence of the series with the Vì vậy, sự hội tụ của chuỗi với số hạng tổng
general term the autocorrelation of the input quát sự tự tƣơng quan của tín hiệu đầu vào
signal depends on the values of the Hurst phụ thuộc vào các giá trị của tham số
parameter. This is why analyzing the Hurst.Đây là lý do tại sao khi phân tích sự
convergence of this series we can specify the hội tụ của chuỗi này, chúng ta có thể xác
interval in which the value of H is situated: (0, định rõ khoảng trong đó giá trị của H phù
0.5) if the series is convergent and (0.5, 1) if hợp: (0, 0.5) nếu chuỗi hội tụ và (0.5, 1) nếu
the series is divergent. chuỗi phân kỳ.
Finally, for H = 0, the fGn becomes a white
Cuối cùng, đối với H = 0, fGn sẽ trở thành
noise and: nhiễu trắng và:
……………………………..
…………………….
So, in this case the series with the general term Vì vậy, trong trƣờng hợp này, chuỗi với số
the ACF,(k), converges as well. hạng tổng quát ACF …. cũng hội tụ.
When the ACF(k) slowly decays and the Khi ……giảm chậm và phƣơng trình (2.62)
equation (2.62) is satisfied, we call the cor- đƣợc thỏa mãn, chúng ta gọi quá trình tĩnh
responding stationary process X(t) long-range tƣơng ứng X(t) là sự phụ thuộc thời gian dài
dependent, [KP99], On the contrary, short- [KP99], Trái lại, sự phụ thuộc thời gian
range dependence is characterized by quickly ngắn đƣợc đặc trƣng bởi các tƣơng quan suy
decaying correlations. These two regions are giảm nhanh. Hai vùng này tách biệt nhau
separated by the caseH=0.5. In this case, the qua trƣờng hợp H=0.5. Trong trƣờng hợp
series with the general term(k)is divergent. này, chuỗi với số hạng tổng quát….phân kỳ.
For 0 <H<0.5 the series with the general Khi 0 <H<0.5, chuỗi với số hạng tổng
term(k)is convergent. quát…hội tụ.
…………….
LRD của quá trình tĩnh X(t) cũng có thể
The LRD of a stationary pro cess Xt can be also
đƣợc định nghĩa theo mật độ phổ công suất
defined in terms of p ower spectral density
[Cle04], có tính đến định lý Winer-Hinein.
[Cle04], taking into account the Winer-Hinein
theorem. Định nghĩa 10. Quá trình tĩnh Xt biểu diễn
Definition 10.A stationary processXt presents LRD nếu mật độ phổ công suất của nó thõa
LRD if its power spectral density satisfies the mãn hệ thức sau đây:
following relation:
with A — 0 ft G (0,1) and c, is a constant. với A - 0 ft G (0,1) và c là một hằng số.
Số hạng ….biểu diễn mật độ phổ công suất
The term f() represents the power spectral của quá trình tĩnh và có thể tính đƣợc khi áp
density of the stationary process and can be dụng định lý Wiener-Hinein:
computed applying the Wiener-Hinein theorem:
………………… Trong trƣờng hợp này, mối quan hệ giữa
In this case, the relation between the Hurst tham số Hurst H và ft nhƣ sau:……………
parameter H and ft is the following: ……….
Definition 11.A stationary processXt presents Định nghĩa 11. Một quá trình tĩnh X(t) biểu
LRD (seasonal long memory) with a pole at Ao diễn LRD (lƣu trữ lâu dài) với một cực tại
if the power spectral density satisfies the ....nếu mật độ phổ công suất thoãn mãn hệ
thức sau
following relation:
với, A - A0, A0 G [0, n \, ft G (0,1) và c là
with, A — A0, A0 G [0,n\, ft G (0,1) and c, is a một hằng số.
constant.
The expressions of the power spectral densities Các biểu thức mật đổ phổ công suất từ các
from equations (2,67) and (2,68) enable the phƣơng trình (2,67) và (2,68) giúp chúng ta
estimation of Hurst parameter by spectral có thể ƣớc lƣợng đƣợc tham số Hurst qua
analysis. The major difficulty of this kind of việc phân tích phổ. Khó khăn lớn nhất của
Hurst parameter estimation lays in the fact that loại ƣớc tính tham số Hurst này nằm ở chổ
these power spectral densities are divergent mật độ phổ công suất của nó phân kỳ quanh
around 0 for the equation (2.67) and around 0 giá trị 0 đối với phƣơng trình (2.67) và
for the equation (2.68). quanh giá trị đối với phƣơng trình (2.68).
The standard spectral estimation techniques, Kỹ thuật ƣớc tính phổ tiêu chuẩn, dựa trên
based on Fourier transform, fail due to these biến đổi Fourier, không thể áp dụng do sự
divergences, but they can be successfully phân kỳ của chúng, nhƣng chúng ta có thể
substituted by spectral estimation techniques dùng kỹ thuật ƣớc tính phổ dựa trên wavelet
based on wavelets, as we shall see in the để thay thế chúng, chúng tôi sẽ trình bày
following sub-sections. vấn đề đó trong mục tiếp theo.
2.8 The Estimation of Hurst Parameter 2.8 Ƣớc tính tham số Hurst
The Hurst parameter (H) characterizes a Tham số Hurst (H) xác định một quá trình
process in terms of the degree of self-similarity theo bậc tự đồng dạng và LRD (mức độ bền
and LED (the degree of persistence of the vững của hiện tƣợng thống kê).
statistical phenomenon).
The degree of self-similaritv and LRD Bậc tự đồng dạng và LRD tăng khi H ^ 1,
increases as H ^ 1, [Rut06], Theoretically, H [Rut06], Về mặt lý thuyết, H phải nằm giữa
must be between 0 and 1, A value equal to 0,5 0 và 1, Một giá trị bằng 0,5 cho thấy thiếu
indicates the lack of self-similaritv or the tính đồng dạng hoặc sự xuất hiện của hiện
presence of short-range dependence (SRD), tƣợng phụ thuộc thời gian ngắn (SRD),
[AV98], A value of H smaller than 0,5 [AV98], Giá trị của H nhỏ hơn 0,5 cho thấy
indicates that between the samples there is a rằng giữa các mẫu có một SRD (hàm tự
SRD (the autocorrelation function is absolutely tƣơng quan có thể cộng), Một giá trị lớn hơn
sumable), A value greater than 0,5 indicates the 0,5 cho thấy sự tồn tại của LRD (ACF
existence of LRD (the ACF is not absolutely không thể cộng hoàn toàn). Cần nhớ rằng
summable). It is very important to know that chúng ta không thể tính đƣợc tham số Hurst,
Hurst parameter can not be calculated, it can mà chỉ có thể ƣớc lƣợng nó [KFR02], bởi vì
only be estimated [KFR02], because there are không có các phƣơng pháp toán học để tính
not mathematical methods to calculate the H in H trong phƣơng trình (2.55) mà đối với nó
equation (2,55) for which the series with the các chuỗi với số hạng tổng quát ACF hội tụ.
general term the ACF is convergent. There are Có những kỹ thuật thống kê khác nhau để
various statistical techniques to estimate Hurst ƣớc tính tham số Hurst (H), Theo định
parameter (H), By definition, the LRD nghĩa, hiện tƣợng LRD có liên quan đến đặc
phenomenon is related to the power-law tính định luật lũy thừa của các quá trình
behavior of certain second-order statistics thống kê bậc hai nhất định (phƣơng sai, hiệp
(variance, covariance,,,,) of the process with phƣơng sai,,,,) của quá trình này đối với
respect to the durations of observation [AV98], khoảng thời gian quan sát [AV98], Do đó,
Many estimators of H are therefore based on nhiều chƣơng trình ƣớc tính tham số H dựa
the idea of measuring the slop e of a linear fit in trên ý tƣởng đo hệ số góc của sự khớp tuyến
a log-log plot. The Hurst parameter estimators tính trong đồ thị log-log. Các chƣơng trình
can be classified into two categories: operating ƣớc lƣợng tham số Hurst có thể đƣợc chia
in the time domain and operating in the thành hai loại: hoạt động trong miền thời
frequency domain. gian và hoạt động trong miền tần số,
• the estimators operating in the time • các ƣớc tính hoạt động trong miền thời
domain are: gian là:
— Rescaled Adjusted Range (R/S) Method, - Phƣơng pháp Phạm vi điều chỉnh thay đổi
tỷ lệ (R / S)
2.8.1 Time Domain Estimators 2.8.1 Các chƣơng trình ƣớc lƣợng miền thời
gian
The so-called variogram or R/S estimators are Các chƣơng trình ƣớc lƣợng variogram hoặc
famous examples of the idea of measuring the R / S là những ví dụ về ý tƣởng đo hệ số góc
slope of a linear fit in a log-log plot. của đƣờng khớp tuyến tính trong đồ thị log-
log.
Rescaled Adjusted Range (R/S) Method Phƣơng pháp phạm vi điều chỉnh thay đổi tỷ
lệ (R / S)
Proposed by Hurst in 1951, the R/S statistic is
Do Hurst Đề xuất vào năm 1951, thống kê
one of the oldest and better known methods for
R / S là một trong những phƣơng pháp lâu
estimating the Hurst parameter, H, in a time
đời nhất và có ƣu điểm vƣợt trội trong việc
series which presents LRD, For a selection of
ƣớc lƣợng tham số Hurst, H, trong các chuỗi
subsets of the time series Ai, starting at U and
thời gian biểu diễn LRD. Đối với quá trình
of size n+1, R/S statistic is defined as presented
lựa chọn các tập con của các chuỗi thời gian
in the following equation:
Ai, bắt đầu từ ti và kích thƣớc n +1, thống kê
R / S đƣợc định nghĩa dƣới dạng phƣơng
trình sau:
where R represents the adjusted range of the
considered series, Ai, and S is the sample trong đó R biểu diễn phạm vi điều chỉnh của
variance of Ai, chuỗi đang xét, , Ai, và S là phƣơng sai mẫu
của Ai,
The adjusted range R(ti,n) has the following Phạm vi điều chỉnh R (ti, n) có ý nghĩa vật
physical interpretation. We suppose the time lý nhƣ sau. Giả sử chuỗi thời gian Ai biểu
series Ai represents the amounts of water per diễn lƣợng nƣớc trên một đơn vị thời gian
time unit flowing into a reservoir. Furthermore, chảy vào bồn chứa. Hơn nữa, nƣớc chảy ra
water flows out of the reservoir with a constant khỏi bồn với tốc độ không đổi, sao cho bồn
rate, such that the reservoir contains the same chứa lƣợng nƣớc ở đơn vị thời gian…giống
amount of water at the tt+n time unit as at the nhƣ ở đơn vị thời gian ….. Thế thì R (ti, n)
tp time unit. Then R(ti,n) is the minimum là dung tích tối thiểu của bồn chứa để nó sẽ
capacity of the reservoir such that it will not không chảy tràn trong thời gian ti đến ti + n
overflow in the period ti to ti+n inclusive.
The calculation of R(ti;n) proceeds as follows. Chúng ta tiến hành tính toán R(ti;n) nhƣ sau.
Given t and n, and the mean: Với ti, n và giá trị trung bình cho trƣớc:
…………………….
độ lệch chuẩn có thể đƣợc biểu diễn nhƣ
the standard deviation can be expressed as
sau:
follows:
The rescaled adjusted range is then just R(ti, Thế thì, phạm vi điều chỉnh thay đổi tỷ lệ là
n)/S(ti, n). A single such calculation results in R (ti, n) / S (ti, n). Một tính toán nhƣ thế
one point on a graph of log10 R(ti, n)/S(ti, n) tƣơng ứng với một điểm trên đồ thị log10 R
against log10 n. By varying ti and n we obtain a (ti, n) / S (ti, n) theo log10 n. Bằng cách
plot of E/S. The size n is varied from 10 to thay đổi ti và n chúng ta thu đƣợc đồ thị E /
about N/8 (N is the total sample size) in 5,000 S. Kích thƣớc n thay đổi từ 10 đến N / 8 (N
logarithmicallv-spaced steps (except for small là tổng kích thƣớc mẫu) trong 5.000 bƣớc
n, where several calculations of E/S are made logarithm cách đều nhau (trừ n nhỏ, trong
for the same n and different tI), [DSJX96]. The đó một số tính toán của E / S đƣợc thực hiện
starting value tI is chosen randomly in the đối với cùng một n và tI khác nhau),
range 1 to N-n. Finally, linear regression is [DSJX96]. Giá trị ban đầu tI đƣợc chọn
used to fit a straight line to the E/S plot, the ngẫu nhiên trong khoảng từ 1 tới N-n. Cuối
slope of this line being an estimate of H, cùng, hồi quy tuyến tính đƣợc sử dụng để
[LTWW93], khớp đƣờng thẳng với đồ thị E/S, hệ số góc
của đƣờng này là ƣớc lƣợng của H,
[LTWW93],
When applied to long-range dependent data, Khi áp dụng cho dữ liệu phụ thuộc thời gian
such a spectral estimator results in an estimator dài, một chƣơng trình ƣớc tính phổ nhƣ thế
of H based on a linear fit in a log(u) versus cho ra ƣớc lƣợng H dựa trên sự khớp tuyến
logE(u) plot, which is strongly biased. This tính đồ thị log(u) theo LogE(u), đồ thị này
happens because the constant-bandwidth bị lệch nhiều. Nguyên nhân là do phân tích
spectral analysis performed does not match phổ băng thông không đổi đƣợc thực hiện
with the structure of the power spectral density không khớp với cấu trúc mật độ phổ công
of a long-range dependent process. The wavelet suất của quá trình phụ thuộc thời gian dài.
based spectral estimators, which will be Các ƣớc lƣợng phổ dựa trên wavelet, sẽ
presented in the following, perform a constant đƣợc trình bày trong phần sau đây, thực
relative bandwidth spectral analysis that hiện phân tích phổ băng thông tƣơng đối
matches with the structure of the power spectral không đổi khớp với cấu trúc mật độ phổ của
density of a long-range dependent process, quá trình phụ thuộc thời gian dài [AV98],
[AV98],
Whittle Estimator Ƣớc tính Whittle
To di minish the drawbacks of the H estimator Để khắc phục nhƣợc điểm của ƣớc tính H
based on periodogram already mentioned, dựa trên biểu đồ tuần hòa đã đề cập trƣớc
Whittle proposed the minimization of a đây, Whittle đề xuất cực tiểu hóa hàm khả
likelihood function, which is applied to the năng, hàm này áp dụng cho biểu đồ tuần
periodogram of the time series. It involves to hoàn của chuỗi thời gian. Nó liên quan đến
find a function f (v; n) which minimize the việc tìm một hàm f (v, n) cực tiểu hóa biểu
expression: thức:
(2.79)
(2.79)
trong đó n là vector với các tham số chƣa
where n is the vector of unknown parameters
biết và I(v) là biểu đồ tuần hoàn. Quá trình
and I(v) is the periodogram. The minimization
cực tiểu hóa đƣợc thực hiện cho biến
is performed for the variable n- By normalizing
…Bằng cách chuẩn hóa f (v, n), số hạng f
f (v; n), the term log f (v; n)dn becomes equal
(v, n) dn bây giờ sẽ bằng 0. Tìm đƣợc giá trị
to 0, Finding the value of n which minimizes Q,
của n làm Q cực tiểu, chúng ta có thể xác
the unknown parameters and the function f are
định đƣợc các tham số chƣa biết và hàm f.
identified. Substituting the expression of the p
Thế biểu thức của biểu đồ tuần hoàn (phụ
erio dogram (which depends on H), computed
thuộc vào H), đƣợc tính với một trong
with one of the metho ds already presented, in
những phƣơng pháp đã trình bày trƣớc đây,
the first term of the right hand side of equation
vào số hạng thứ nhất ở vế phải của phƣơng
(2.79), the integral (which will dep end on Has
trình (2.79), chúng ta có thể tính đƣợc tích
well) could be computed and the minimum
phân (cũng phụ thuộc vào H) và tìm đƣợc
value of Q (which depends onHas well) will b e
giá trị cực tiểu của Q (cũng phụ thuộc vào
found. This is the reason why the Whittle
H). Đây là lí do tạo sao ƣớc lƣợng Whittle
estimator c an b e used to estimateH. The
có thể đƣợc dùng để ƣớc tính H. Chƣơng
Whittle estimator is defined as the value of
trình ƣớc lƣợng Whittle đƣợc định nghĩa là
…that minimize Q, [TT98]
giá trị làm cho Q cực tiểu, [TT98]
Ƣớc lƣợng Whittle Rời rạc
The Discrete Whittle estimator
The MLE gives a coherent approach to MLE cho chúng ta một phƣơng pháp thống
estimator design, which is capable of producing nhất để thiết kế chƣơng trình ƣớc lƣợng, nó
an unbiased, asymptotically efficient estimator có khả năng tạo ra một chƣơng trình ƣớc
for H. Proposed by Whittle in 1953, the Whittle lƣợng hiệu quả không chênh lệch, tiệm cận
estimator consists of two analytic cho H. Do Whittle đề xuất vào năm 1953,
approximations to the exact Gaussian MLE, in ƣớc lƣợng Whittle bao gồm hai gần đúng
order to avoid the huge computational giải tích cho MLE Gauss chính xác, để tránh
complexity of the exact algorithm, [AV98]. sự phức tạp trong tính toán của giải thuật
chính xác [AV98].
The first approximation basically replaces the
covariance matrix by an integral of a function Về cơ bản, gần đúng bậc nhất thay thế ma
of the spectrum. Because the computational trận hiệp phƣơng sai bằng tích phân của
difficulties remain after this approximation, a hàm phổ. Bởi vì mức độ khó khăn trong tính
second approximation is performed. It consists toán vẫn còn sau phép gần đúng này, ngƣời
in the discretization of the frequenev-domain ta lại thực hiện gần đúng bậc hai. Nó bao
integration rewritten in terms of the gồm sự rời rạc hóa của tích phân miền tần
periodogram. Performing the two số đƣợc viết lại theo biểu đồ tuần hoàn.
approximations, the Discrete-Whittle (D- Thực hiện hai lần xấp xỉ, chúng ta thu đƣợc
Whittle) estimator is obtained. chƣơng trình ƣớc tính Whittle rời rạc (D-
The D-Whittle estimator relies on the Whittle).
periodogram, inheriting the structure of the Ƣớc tính D-Whittle lệ thuộc vào biểu đồ
Whittle estimator (which relies on the tuần hoàn, kế thừa cấu trúc của ƣớc lƣợng
periodogram as it was already said) and the Whittle (dựa vào biểu đồ tuần hoàn nhƣ đã
periodogram has a low computational cost. đề cập trƣớc đây) và biểu đồ tuần hoàn có
However, a minimization procedure is chi phí tính toán thấp. Tuy nhiên, cần phải
involved. This procedure requires many sử dụng một quy trình cực tiểu hóa. Quy
iterative evaluations, resulting a higher overall trình này đòi hỏi nhiều đánh giá lặp đi lặp
cost. Furthermore, problems of convergence to lại, dẫn đến tổng chi phí cao hơn. Hơn nữa,
local minima may be found. các vấn đề hội tụ của các cực tiểu cục bộ có
thể phát sinh.
The use of periodogram makes the D-Whittle
estimator asymptotically unbiased only. This Việc sử dụng biểu đồ tuần hoàn làm cho
asymptotic comportment is not enough for a ƣớc lƣợng D-Whittle không chênh lệch tiệm
good estimator, which must be unbiased, robust cận. Kiểu tiệm cận này chƣa đủ cho một
and efficient. ƣớc lƣợng tốt, nó nhất thiết phải không
chênh lệch, bền vững và hiệu quả.
Unbiased: có thể dịch là ―đúng‖, ―không bị
chệch‖
Ƣớc lƣợng LRD dựa trên Wavelet
Wavelet based LRD estimators
Abrv and Veiteh [AV98] proposed a Hurst Abrv và Veiteh [AV98] đề xuất một ƣớc
parameter estimator at each scale of the wavelet lƣợng tham số Hurst tại mỗi mức tỷ lệ của
decomposition of the random process which phân tích wavelet của quá trình ngẫu nhiên
must be analyzed. The mth scale estimation is cần phân tích. Ƣớc tính mức tỷ lệ thứ m
realized computing the expectation of the đƣợc thực hiện bằng cách tính toán kỳ vọng
random variable: của biến ngẫu nhiên:
……………….
where nm represents the length of the sequence ở đây nm biểu diễn chiều dài của chuỗi hệ
of wavelet coefficients obtained at the mth số wavelet thu đƣợc ở mức phân tích thứ m.
decomposition level.
For the beginning, let us consider that the input
random process is wide sense stationary. The Để bắt đầu, chúng ta xét thấy rằng quá trình
Abrv-Veich estimator takes the form: ngẫu nhiên đầu vào là tĩnh theo nghĩa rộng.
………………… Ƣớc tính Abrv-Veich có dạng:
For stationary input random processes, the
Đối với quá trình ngẫu nhiên đầu vào tĩnh,
expectation of the wavelet coefficients square
kỳ vọng của bình phƣơng hệ số wavelet
represents their variance, which is constant.
biểu diễn phƣơng sai của chúng, đây là một
Denoting this constant as ……the previous
đại lƣợng không đổi. Kí hiệu hằng số này
equation becomes:
…phƣơng trình trƣớc đây trở thành:
……………………
với việc sử dụng phƣơng trình (2.46).
with the aid of equation (2.46).
For a random input process, continuous in time Đối với một quá trình đầu vào ngẫu nhiên,
and with LED: liên tục theo thời gian và với LRD:
……………………. Ƣớc tính này có thể đƣợc sử dụng trong
This estimator can be used in practice if the thực tế nếu tích phân từ vế phải hội tụ. Nếu
integral from the right side is convergent. If the các hàm wavelet mẹ (MW) ^ đƣợc chọn từ
mother wavelet (MW) ^ is selected from the họ Daubechies của các MW, thì nó có băng
Daubechies family of MWs, then it has a finite thông hiệu dụng xác định um:
effective bandwidth um:
………………
Hence, the integral in equation (2,84) can be Do đó, tích phân trong phƣơng trình (2.84)
written as: có thể đƣợc viết là:
…………………..
The convergence problem can appear only Bài toán hội tụ chỉ có thể xuất hiện quanh
around the point u = 0, if: điểm u = 0, nếu:
Fortunately, Daubechies MWs have a positive
number of vanishing moments, Nv, which Tuy nhiên, các MW Daubechies có một số
means that: moment triệt tiêu dƣơng, Nv, có nghĩa là:
Taking in consideration the derivation in the Xét đến việc rút ra tính chất miền tần số của
frequency domain property of the Fourier biến đổi đổi Fourier, phƣơng trình trên có
transform, the previous equation can be written thể đƣợc viết nhƣ sau:
as:
Hence, the Fourier transform and its Nv - 1 Do đó, biến đổi Fourier và Nv - 1 đạo hàm
derivatives vanish in u = 0.
It can be decomposed around u= 0: của nó triệt tiêu trong u = 0.
Có thể phân tích nó quanh u=0:
………………….
obtaining a polynomial with the degree higher Thu đƣợc một đa thức với bậc cao hơn hoặc
or equal to Nv. bằng Nv.
Do đó, mật độ phổ của MW, | F {^ (t)} (u) |
Hence, the power spectral density of MW, |F
2 có tính chất nhƣ một đa thức quanh điểm
{^(t)} (u)|2 behaves around the point v = 0 as a
v = 0 với bậc cao hơn hoặc bằng 2Nv, Vì
polynomial with the degree higher or equal to
vậy, điều kiện (2,87) không đƣợc thỏa mãn
2Nv, So, the condition (2,87) is not
nếu:
accomplished if:
So, the integral in equation (2.84) is convergent Vì vậy, tích phân trong phƣơng trình (2.84)
for any MW from Daubechies family, because hội tụ đối với bất kỳ MW nào từ họ
for this family: Daubechies, bởi vì đối với họ này:
Bv making the substitution m ^ m — 1 in
equation (2.84) it results: Bằng cách thay thế…..trong phƣơng trình
(2.84) nó dẫn đến:
Applying the logarithm in the previous Áp dụng thuật toán trong phƣơng trình
equation, an estimator of the Hurst parameter is trƣớc, chúng ta thu đƣợc ƣớc lƣợng tham số
obtained: Hurst:
This is a very simpleHestimator, which requires Đây là ƣớc lƣợng H rất đơn giản, nó chỉ cần
only the wavelet decomp osition of the input phân tích wavelet của quá trình đầu vào và
process and the estimation of the wavelets ƣớc lƣợng phƣơng sai của các hệ số
coefficient variances at two successive scales. Wavelet ở hai mức tỷ lệ liên tiếp. Đối với
For non-stationarv input random processes this quá trình ngẫu nhiên đầu vào không tĩnh
estimator is improper, because the local ƣớc lƣợng này không thích hợp, bởi vì
variance of wavelet coefficients is not longer phƣơng sai cục bộ của các hệ số wavelet
constant. In this case, the random variable from không còn là hằng số nữa. Trong trƣờng
equation (2.80) must be used. Abrv and Veiteh hợp này, chúng ta phải sử dụng biến ngẫu
[AV98] proposed the following estimator: nhiên từ phƣơng trình (2.80). Abrv và
Veiteh [AV98] đã đề xuất ƣớc lƣợng sau
đây:
where C estimates the constant Zog2(c/ n |v|1— trong đó C ƣớc tính hằng số Zog2 (c / n | v |
1-2H | F {0 (t)} (v) | 2dv).
Thực hiện khớp bình phƣơng tối thiểu giữa
Performing a weighted least squares fit between
the scales m1 and m2 yields the following các mức tỷ lệ m1 và m2, chúng ta thu đƣợc
explicit formula: công thức tƣờng minh sau đây:
where
trong đó
and the weight sm = (n ■ /n22)/2m+1 is the và trọng số sm = (n ■ / n22) / 2m +1 là
inverse of the theoretical asymptotic variance nghịch đảo của phƣơng sai tiệm cận lý
of n^d n represents the length of the entire thuyết của…..biểu diễn chiều dài của toàn
sequence of wavelet coefficients [AV98], bộ chuỗi các hệ số wavelet [AV98],
Stationaritv hypothesis testing is difficult in the Việc kiểm tra giả thuyết tĩnh khó khi có
presence of LED, where many classical LRD, trong đó nhiều phƣơng pháp thống kê
statistical approaches cease to hold. cổ điển không đúng.
Ƣớc lƣợng (2.98) đã đƣợc xét trong tài liệu
The estimator (2,98) was treated in [AV98] for
[AV98] cho các quá trình ngẫu nhiên không
non-stationary random processes with LRD
dừng với LRD có các số gia tĩnh nhƣ các
which have stationary increments as the fBm
quá trình fBm. Các quá trình không tĩnh
processes. This kind of non stationaritv appears
thuộc loại này thƣờng xuất hiện trong thực
frequently in practice. For example in the
tế. Chẳng hạn trong khuôn khổ lƣu lƣợng tin
context of Ethernet traffic the first thing to note
Ethernet điều đầu tiên cần lƣu ý là dữ liệu
is that data is not stationary and this is caused
không tĩnh và nguyên nhân là do tính tuần
by the hidden periodicities or of the diurnal
hoàn ẩn hoặc chu kỳ ngày đêm, giờ nghỉ
cycle, lunch breaks etc. On the other hand, it is
trƣa vv Mặt khác, chúng ta có thể hi vọng
reasonable to expect that for smaller timescales
rằng đối với các thang thời gian nhỏ hơn
where network conditions are relatively stable,
trong đó điều kiện mạng tƣơng đối ổn định,
stationaritv will be a natural and useful
tính chất tĩnh là giả thuyết tƣơng đối tự
assumption. So, Ethernet traffic is stationary at
nhiên và hữu ích.Vì vậy, lƣu lƣợng tin
same scales and not stationary at other scales.
Ethernet có tính chất tĩnh ở các mức tỷ lệ
For this reason were considered the scales mi
giống nhau và không tĩnh ở các mức tỷ lệ
and m2 in the design of Abrv- Veiteh estimator.
khác. Vì lý do này, chúng tôi đã xét các mức
Finally, the input random process could have
tỷ lệ m1 và m2 trong thiết kế ƣớc lƣợng
overall trends. These trends represent the last
Abrv-Veiteh. Cuối cùng, quá trình ngẫu
source of non-stationaritv for the input random
nhiên đầu vào có thể có xu hƣớng chung.
process.
Những xu hƣớng này thể hiện nguồn không
tĩnh cuối cùng đối với quá trình ngẫu nhiên
đầu vào.
The performance of Abry-Veiteh estimator is Trong [AV98], các tác giả đã phân tích tính
analyzed in [AV98], It is an unbiased estimator, hiệu quả của ƣớc lƣợng Abry-Veiteh. Nó là
robust and efficient which requires less một ƣớc lƣợng không chênh lệch, mạnh mẽ
computational resources than other H và hiệu quả đòi hỏi ít tài nguyên tính toán
estimators, because it uses the DWT which can hơn các ƣớc lƣợng H khác, bởi vì nó sử
be computed very fast (multiple of O(N)), for dụng DWT có thể đƣợc tính toán rất nhanh
example Whittle estimator (which requires (nhiều O (N )), ví dụ ƣớc lƣợng Whittle (đòi
more computational complexity due to its hỏi tính toán phức tạp hơn do bản chất đệ
recursive nature). Its efficiency comes from the quy của nó). Tính hiệu quả của nó xuất phát
fact that it attains the Cramer-Rao bound. In the từ việc nó đạt đƣợc ràng buộc Cramer-Rao.
design of the Abry-Veiteh estimator is assumed Trong thiết kế ƣớc lƣợng Abry-Veiteh
that a continuous-time random process, x(t), is ngƣời ta giả định rằng một quá trình ngẫu
available. There are numerous cases where only nhiên liên tục, x (t), có sẵn. Có rất nhiều
discrete time observations of the input process trƣờng hợp trong đó các quan sát thời gian
are available. In the following these rời rạc của quá trình đầu vào có sẵn. Trong
observations will be denoted as x[1],x[2], phần tiếp theo, những quan sát này sẽ đƣợc
...,x[N]. For continuous-time random processes, ký hiệu là x [1], x [2], ..., x [N]. Đối với quá
the wavelet coefficients are computed using the trình ngẫu nhiên liên tục theo thời gian, các
equation: hệ số wavelet đƣợc tính bằng phƣơng trình:
The integral from the previous equation can not Chúng ta không thể tính đƣợc tích phân từ
be computed if only discrete observations x(t) phƣơng trình trƣớc nếu chỉ có các quan sát
of the processx(t)are available. So, this integral rời rạc của quá trình x(t). Vì vậy, chúng ta
must be discretized: phải rời rạc hóa tích phân này:
……………….. Khi thực hiện đổi biến l = nm (p + k),
With the change of variable l = nm(p + k), the phƣơng trình cuối cùng trở thành:
last equation becomes:
………………….. Trong đó am[p] là một tập hợp các hệ số bộ
where am[p] is a collection of discrete filters lọc rời rạc đƣợc xác định bởi MW đƣợc sử
coefficients determined by the MW used dụng [IL87].
[IL87].
Các hệ số Wavelet dm [k] và các hệ số dx
The wavelets coefficients dm[k] and the
[m, k] có tính chất giống nhau. Ngƣời ta có
coeffieients dx[m, k] have similar properties.
thể thay thế dm [k] với dx [m, k] và sử dụng
One can replace dm[k] with dx[m, k] and use
ƣớc lƣợng bry-Veiteh, [AFTV03], Các đại
the Abry-Veiteh estimator, [AFTV03], The
lƣợng cuối cùng:
resulting quantities:
…………………
are called generalized quadrature variations of đƣợc gọi là biến đổi cầu phƣơng tổng quát
the process x[1} and their substitution in the hóa của quá trình x[1} và việc thế chúng
expression of the Abry-Veitch estimator give a vào biểu thức ƣớc lƣợng Abrv-Veiteh cho ra
new Hestimator, which can b e cal led discrete một ƣớc lƣợng H mới, đƣợc gọi là ƣớc
Abrv-Veiteh estimator, or generalized lƣợng Abrv-Veiteh rời rạc hoặc các biến đổi
quadrature variations Hurst parameter estimator cầu phƣơng tổng quát hóa ƣớc tính tham số
based on wavelets, because one of its Hurst dựa trên các wavelet, vì một trong các
parameters is the mother wavelets selected for tham số của nó là các hàm wavelet mẹ đƣợc
its implementation, The performance of those chọn cho việc thực thi nó. Tính hiệu quả của
Hurst estimators is analyzed in [AFTV03], các chƣơng trình ƣớc lƣợng Hurst này đƣợc
They are consistent and have asymptotic phân tích trong [AFTV03], Chúng nhất
normality. The complexity of the corresponding quán và có tính chuẩn tắc tiệm cận. Sự phức
algorithms is O(N), the same as the complexity tạp của các thuật toán tƣơng ứng là O (N),
of the Abrv-Veitch estimator. tƣơng tự nhƣ mức độ phức tạp của ƣớc
lƣợng Abrv-Veitch.
This class of estimators is robust against non-
stationaritv. They were tested for fBm and Các phƣơng pháp ƣớc lƣợng này có tính
linear fractional stable processes in [AFTV03], chất bền vững với chế độ không tĩnh. Chúng
This is the class of Hurst parameter estimators đã đƣợc kiểm tra đối với fBm và các quá
which are the most appropriate the solve the trình ổn định tuyến tính từng phần trong
problem of WiMAX traffic which represent the [AFTV03], Đây là loại chƣơng trình ƣớc
subject of Chapter 4 of this thesis, WiMAX tính tham số Hurst thích hợp nhất để giải
traffic data, which represent the subject of this quyết các bài toán lƣu lƣợng tin WiMAX
thesis, are discrete observations of a tiêu biểu cho chủ đề của Chƣơng 4 của luận
continuous-time random process, which is non- án này, dữ liệu lƣu lƣợng tin WiMAX, đại
stationarv, because it has overall trend as it will diện cho chủ đề của luận án này, là những
be proved in Chapter 3, So, for LED analysis of quan sát rời rạc của một quá trình ngẫu
WiMAX traffic, the best class of Hurst nhiên liên tục theo thời gian, không tĩnh, bởi
parameter estimators based on wavelets, seems vì nó có xu hƣớng chung nhƣ chứng minh
to be the generalized quadrature variations trong Chƣơng 3, Vì vậy, để phân tích LRD
estimators class, của lƣu lƣợng tin WiMAX, lớp các chƣơng
trình ƣớc lƣợng biến đổi cầu phƣơng tổng
quát hóa có vẻ là lớp chƣơng trình ƣớc tính
tham số Hurst tốt nhất dựa trên Wavelet.
2.9 Conclusions 2.9 Kết luận
In this chapter we aimed to present some
elementary statistics and we introduced some Trong chƣơng này, mục đích của chúng tôi
basic ideas of time series analysis and là giới thiệu một số thống kê cơ bản và một
forecasting that will be used in the following số ý tƣởng cơ bản về phân tích chuỗi thời
chapters. We introduced an important gian và dự báo sẽ đƣợc sử dụng trong các
parametric family of stationary time series, chƣơng tiếp theo. Chúng tôi giới thiệu một
AEMA processes which are frequently used in họ các chuỗi thời gian tĩnh tham số quan
the modeling of time series, due to their high trọng, các quá trình AEMA thƣờng đƣợc sử
generality, A generalization of this class, which dụng thƣờng xuyên nhất trong việc mô hình
incorporates a wide range of non-stationarv hóa chuỗi thời gian, do tính tổng quát hóa
series, is provided by the ARIMA processes, cao của chúng. Sự tổng quát hóa lớp này,
AEIMA models are flexible and can be applied trong đó kết hợp một loạt các chuỗi không
to a wide spectrum of time series analysis. tĩnh, đƣợc cung cấp bởi các quá trình
They are used for: financial, meteorological or ARIMA. Các mô hình AEIMA có tính linh
derived from man made activities time series. hoạt và có thể đƣợc áp dụng cho một loạt
Finding an appropriate model implies the order các phân tích chuỗi thời gian. Chúng đƣợc
selection and parameters estimation. sử dụng cho: tài chính, khí tƣợng học hoặc
có nguồn gốc từ các chuỗi thời gian nhân
tạo. Việc tìm kiếm một mô hình thích hợp
tƣơng đƣơng với việc lựa chọn bậc và ƣớc
tính các tham số.
The estimation methods presented in this Các phƣơng pháp ƣớc lƣợng đƣợc trình bày
chapter enable us to find, for given values of p trong chƣơng này cho phép chúng ta tìm
and q, an AEMA(p,g) model to fit a given kiếm một mô hình AEMA (p, g) để khớp
series of data, A number of different procedures một chuỗi dữ liệu nhất định đối với các giá
can be employed to test whether the selected trị nhất định của p và q. Ngƣời ta đã sử
model is really a statistically sufficient dụng nhiều quy trình để kiểm tra xem mô
description of the time series. hình đƣợc chọn có thực sự mô tả đầy đủ về
mặt thống kê các chuỗi thời gian hay không.
Trong vài năm qua, các phép đo về lƣu
In the last few years measurements of various lƣợng tin của các loại mạng khác nhau đã
types of network traffic proved that the traffic cho thấy lƣu lƣợng tin có tính chất LRD và
exhibits LED and self-similarity, A key tự đồng dạng. Một tham số quan trọng đặc
parameter characterizing self-similar processes trƣng cho các quá trình tự đồng dạng và
is the Hurst parame ter H. Thus, an overview of tham số Hurst, kí hiệu là H. Vì vậy, trong
the theory and methods developed to deal with chƣơng này, chúng tôi trình bày một số lý
long-range dependent data were presented in thuyết và phƣơng pháp dành để nghiên cứu
this chapter. dữ liệu phụ thuộc thời gian dài.
One of the theoretical contributions of this Một trong những đóng góp lý thuyết của
thesis is the second order DWT statistical luận án này là phân tích thống kê DWT bậc
analysis presented in section 2,6, in equations hai đƣợc trình bày trong phần 2.6, từ
(2,27) to (2,49), It permits to understand how phƣơng trình (2.27) đến (2.49). Nó cho phép
does the sequences of wavelet coefficients chúng ta hiểu đƣợc các chuỗi hệ số wavelet
obtained by computing the DWT of a wide thu đƣợc từ việc tính toán DWT của một
sense stationary random process look like. The quá trình ngẫu nhiên tĩnh theo nghĩa rộng có
mean, variance and autocorrelation of those dạng nhƣ thế nào. Giá trị trung bình,
sequences are computed in general and for the phƣơng sai và tự tƣơng quan của các chuỗi
particular case of input white Gaussian noise. này đƣợc tính cho các trƣờng hợp chung và
An asymptotic analysis, proving the cho trƣờng hợp đặc biệt của nhiễu Gauss
decorrelation effect of the DWT is also trắng. Phân tích tiệm cận, đã chứng minh
reported, A further research direction is the đƣợc hiệu ứng giải tƣơng quan của DWT
generalization of this statistical analysis for cũng đƣợc báo cáo. Hƣớng nghiên cứu tiếp
non-stationarv random signals, theo là tổng quát hóa phân tích thống kê này
cho các tín hiệu ngẫu nhiên không tĩnh.
A very simple Hurst parameter’s estimation Phƣơng pháp ƣớc lƣợng tham số Hurst rất
method, based on the previously mentioned đơn giản, dựa trên phân tích thống kê DWT
second order DWT statistical analysis, is bậc hai đã đƣợc đề cập trƣớc đây, đƣợc đề
proposed in equation (2,95), This estimation xuất trong phƣơng trình (2.95). Phƣơng
method works for second order wide sense pháp ƣớc lƣợng này có thể áp dụng cho các
stationary random processes. It was simply quá trình ngẫu nhiên tĩnh theo nghĩa rộng
generalized to the Abry-Veiteh Hurst bậc hai. Chỉ cần tổng quát hóa nó cho
parameter’s estimator which works for non- phƣơng pháp ƣớc lƣợng tham số Hurst
stationarv continuous in time random Abry-Veiteh, phƣơng pháp có thể áp dụng
processes. Next this estimator was discretized cho các quá trình ngẫu nhiên liên tục theo
obtaining the generalized quadrature variations thời gian không tĩnh. Tiếp theo ƣớc lƣợng
Hurst parameter’s estimator based on wavelets. này đƣợc rời rạc hóa cho ta ƣớc lƣợng tham
This is another theoretical contribution of this số Hurst biến đổi cầu phƣơng tổng quát hóa
thesis. dựa trên các Wavelet. Đây là một đóng góp
khác của luận án này.
The selection of the most appropriate mother Việc lựa chọn các hàm Wavelet mẹ thích
wavelets for the computation of the DWT hợp nhất cho việc tính toán DWT bị chi
implied in the Hurst parameter estimation phối bởi phƣơng pháp ƣớc lƣợng tham số
method must be made based on equation (2,93), Hurst phải đƣợc thực hiện dựa trên phƣơng
The superiority of Hurst parameter’s estimation trình (2.93), Tính ƣu việt của phƣơng pháp
method based on wavelets against other ƣớc lƣợng tham số Hurst dựa trên Wavelet
methods will be proved by simulation in so với các phƣơng pháp khác sẽ đƣợc chứng
Chapter 4. minh bằng mô phỏng trong chƣơng 4.
Chapter 3 Chƣơng 03
Time-series Mining. Application to Forecasting
Khai thác chuỗi thời gian. Ứng dụng để dự
báo
Time-series forecasting is an important area of Dự báo chuỗi thời gian là một lĩnh vực dự
forecasting where the historical values are báo quan trọng trong đó các giá trị cũ đƣợc
collected and analyzed in order to develop a chọn và phân tích để xây dựng mộ mô hình
model describing the behavior of the series. mô tả đặc tính của chuỗi. Có những ví dụ về
There are examples of communication signals các tín hiệu truyền thông biểu diễn chuỗi
which represent time-series, A typical example thời gian, một ví dụ điễn hình là lƣu lƣợng
is the traffic developed in a communication tin trong mạng truyền thông. Để hỗ trợ sự
network. To support the growth of demands, tăng trƣởng của nhu cầu này, các công ty
communication companies are investing in new truyền thông đang đầu tƣ vào công nghệ
technologies to improve their services. mới để cải thiện dịch vụ của họ. Tuy nhiên,
However, in the case of permanent growing of trong trƣờng hợp phát triển nhu cầu lâu dài,
the demands, in order to assure the users để đảm bảo việc cung cấp cho ngƣời sử
supply, a network capacity planning tool should dụng, chúng ta nên sử dụng công cụ hoạch
be used. For capacity planning purposes, one định năng suất mạng. Để phục vụ mục đích
only needs to know the traffic baseline in the hoạch định năng suất mạng, chúng ta cần
future along with possible fluctuations of the biết ngƣỡng lƣu tƣợng tin trong tƣơng lai
traffic around this particular baseline. The cũng nhƣ các biến động khả dĩ của lƣu
communication services providers should lƣợng tin quanh ngƣỡng đặc biệt này. Các
anticipate future demands and should know nhà cung cấp dịch vụ truyền thông nên dự
where and when the upgrades must be done in đoán nhu cầu tƣơng lai và nên biết địa điểm
the network. This requirement is even more và thời gian thực hiện việc cập nhật trong
important in wireless networks. There are three mạng. Đối với các mạng không dây, yêu cầu
modern technologies for the wireless networks: này càng cấp thiết hơn. Có ba công nghệ
Wi-Fi, WiMAX and LTE, mạng không dây hiện đại: Wi-Fi, WiMAX
và LTE,
Worldwide interoperability for Microwave Khả năng tƣơng tác toàn cầu với truy nhập
Access (WiMAX) is a telecommunication tech- viba (WiMAX) là một công nghệ viễn thông
nology based on IEEE 802,16 standard, capable dựa trên chuẩn IEEE 802,16, có khả năng
of delivering advanced IP applications, such as cung cấp các ứng dụng IP nâng cao, chẳng
voice, video, and data over the microwave hạn nhƣ âm thanh, hình ảnh và dữ liệu trên
spectrum EF to stationary and moving users, A phổ vi ba cho ngƣời dùng đang đứng yên
fundamental question about this technology is: cũng nhƣ chuyển động, câu hỏi cơ bản về
How do the technologies compare in terms of công nghệ này là: Làm thế nào để so sánh
prioritizing traffic and controlling quality? A các công nghệ này theo lƣu lƣợng tin ƣu
partial response to the previous question can be tiên và kiểm soát chất lƣợng? Để có thể trả
given by studying the traffic forecasting lời đƣợc một phần câu hỏi này chúng ta cần
methodology for the WiMAX technology. The phải nghiên cứu phƣơng pháp dự báo lƣu
amount of traffic through a BS can not be lƣợng tin đối với công nghệ WiMAX.
higher than the capacity of that BS, If the Lƣợng tin truyền qua một BS không thể
amount of traffic approaches the capacity of the vƣợt quá dung lƣợng của BS đó, Nếu lƣợng
BS, then the BS saturates and a lot o messages tin đạt đến dung lƣợng của BS, thì BS bão
are lost. So, it is necessary to know the capacity hòa và nhiều tin bị mất. Vì vậy, chúng ta
of the BS. cần biết dung lƣợng của BS,
By assuming a deployment scenario -e.g., Bằng cách giả định một tình huống triễn
available bandwidth in MHz per cell,
distribution of various user types, and khai, chẳng hạn nhƣ, băng thông có sẵn theo
application breakdown - it is then possible to MHz trên mỗi ô (tế bào), phân bố các loại
calculate the total traffic volume of a BS. ngƣời dùng khác nhau, và phân tích ứng
dụng – chúng ta có thể tính đƣợc tổng lƣu
lƣợng tin của BS,
Actual data rates, namely the throughput
provided by the BSs throughout the cell and Tốc độ dữ liệu thực tế, cụ thể là lƣu lƣợng
experienced by users, depend on several factors tin do các BS cung cấp qua một cell (tế bào
including user distribution and propagation hoặc ô) và đƣợc trải nghiệm bởi ngƣời
conditions and pilot distribution and will need dùng, phụ thuộc vào nhiều yếu tố bao gồm
to be taken into account. More, different users cả sự phân bố ngƣời dùng và các điều kiện
can use different modulation techniques in the lan truyền, phân bố thành phần dẫn hƣớng
same interval of time. và sẽ cần phải đƣợc tính đến. Hơn nữa,
những ngƣời dùng khác nhau có thể dùng
In addition, the QoS is not constant with the các kỹ thuật điều biến khác nhau trong cùng
amount of the BS capacity used. Lately, there is một khoảng thời gian. Ngoài ra, QoS không
a significant increase in the need for delivering đổi với dung lƣợng BS đƣợc dùng. Gần đây,
multimedia-based services to home residences chúng ta thấy có sự gia tăng đáng kể nhu
and business premises. cầu cung cấp các dịch vụ truyền thông đa
phƣơng tiện cho các hộ gia đình và cơ sở
kinh doanh.
One of the most important attributes of a Một trong những thuộc tính quan trọng nhất
WiMAX network is its ad-hoc nature. Any user của một mạng WiMAX là bản chất ad-hoc
localized into a cell of the network must obtain của nó. Bất kỳ ngƣời đang ở cell (ô, tế bào)
the access any time. So, the number of users is mạng nào cũng có thể truy cập bất kỳ lúc
not a priori known, neither the amount of traffic nào. Vì vậy, số lƣợng ngƣời dùng không
in a cell, đƣợc biết trƣớc, mật độ lƣu lƣợng tin trong
cell cũng vậy.
According to the results presented in these Theo các kết quả trình bày trong những bài
papers we can conclude that AXX performs báo này, chúng ta có thể rút ra rằng AXX
better then the other forecasting techniques for hoạt động tốt hơn các kỹ thuật dự báo khác
small future time intervals, several weeks at đối với các khoảng thời gian tƣơng lai nhỏ,
most. But if the goal of the forecasting method nhiều nhất là vài tuần. Nhƣng nếu mục tiêu
is to predict the moment when a feature of the của phƣơng pháp dự báo là dự đoán thời
traffic (as for example its overall tendency) will điểm mà một đặc trƣng của lƣu lƣợng tin (ví
allow a specific condition (as for example the dụ nhƣ xu hƣớng tổng thể của nó) sẽ cho
saturation of a base station), meaning phép một điều kiện cụ thể (ví dụ nhƣ sự bão
prediction for several months, than pure hòa của một trạm gốc), có nghĩa là dự đoán
statistical models are the ones that should be trong vài tháng, chúng ta nên cân nhắc đến
taken into consideration, because the các mô hình thống kê thuần túy, bởi vì hiệu
performance of XXs deteriorates in the absence suất của XXS suy giảm khi không có
of training. Both forecasting methods (based on training. Cả hai phƣơng pháp dự báo (dựa
linear predictive models or based XXs) can be trên mô hình dự báo tuyến tính hoặc XXS )
accelerated if they are applied in the wavelet có thể đƣợc tăng tốc nếu chúng đƣợc áp
domain, taking into consideration the sparsity dụng trong miền wavelet, xét đến tính chất
of the wavelet coefficients. thƣa thớt của các hệ số wavelet.
The wavelet transform has been frequently used Biến đổi wavelet thƣờng xuyên đƣợc dùng
for time series analysis and forecasting in để phân tích chuỗi thời gian và dự báo trong
recent years |PTZD03|. Wavelets can localize những năm gần đây | PTZD03 |. Wavelet có
data in time-scale space. At high scales, thể khoanh vùng dữ liệu trong không gian tỷ
wavelets have a small time support and can lệ thời gian. Ở các mức tỷ lệ lớn, Wavelet
"catch" discontinuities or singularities, while at có miền xác định thời gian nhỏ và có thể
low scales the wavelets have a larger time "bắt đƣợc" sự không liên tục hoặc kỳ dị,
support and can identify periodicities. Wavelets trong khi ở các mức tỷ lệ nhỏ Wavelet có
are able to characterize the physical properties miền xác định lớn hơn và có thể đặc trƣng
of the data. At low scales, the wavelets identify cho tính tuần hoàn. Wavelet có thể mô tả
the long-term trend of the data. By increasing các tính chất vật lý của dữ liệu. Ở các mức
the scale, the wavelets begin to reveal the tỷ lệ thấp, Wavelet xác định xu hƣớng dài
details of data, zooming in on its behavior at a hạn của dữ liệu. Bằng cách tăng tỷ lệ, các
moment of time. Wavelet bắt đầu hiện rõ chi tiết dữ liệu,
phóng đại các tính chất của nó ở một thời
điểm.
Trong bài báo | PTZD03 |, các tác giả đã đề
A paper in which the authors proposed to xuất mô hình hóa quá trình tiến triển lƣu
model the traffic evolution in a IP backbone lƣợng tin trong một mạng trục IP ở các
network at large time scales is |PTZD03|. The thang thời gian lớn. Các tác giả đã kết hợp
authors combined the wavelet analysis and phân tích wavelet và xử lý dữ liệu thống kê
statistical data processing and developed và phát triển các mô hình dự báo dài hạn
models for long-term forecasting for capacity cho các mục đích quy hoạch năng lực mạng.
planning purposes. Một sự kết hợp giữa phân tích wavelet và
A combination between wavelet analysis and dự báo lƣu lƣợng tin cũng đã đƣợc thực hiện
traffic foresting is made also in |WS02|. trong | WS02 |.
Inspired by |PTZD03| this chapter proposes a Xuất phát từ ý tƣởng trong | PTZD03 |
methodology to build forecasting models for chƣơng này đề xuất một phƣơng pháp xây
WiMAX traffic. The goal of the forecasting dựng mô hình dự báo cho lƣu lƣợng tin
methodology proposed in |PTZD03| was to WiMAX. Mục tiêu của phƣơng pháp dự báo
predict the moment when a part of a đƣợc đề xuất trong | PTZD03 | là để dự đoán
communication network, in which the thời điểm mà một phần của mạng truyền
equipments are connected by cables, will thông, trong đó các thiết bị đƣợc kết nối
saturate. The forecasting methodology bằng dây (cáp), sẽ bão hòa. Các phƣơng
proposed in |PTZD03| supposes the utilization pháp dự báo đƣợc đề xuất trong | PTZD03 |
of ARIMA models in the wavelet domain to giả định sử dụng các mô hình ARIMA trong
estimate two features (the overall tendency and miền wavelet để ƣớc tính hai tính năng (xu
the variability) of the time-series belonging to a hƣớng tổng thể và sự thay đổi) của các
network traffic data base. In Figure 3.1 are chuỗi thời gian thuộc cơ sở dữ liệu lƣu
shown the main steps followed in |PTZD03|. lƣợng tin mạng. Trong hình 3.1, các bƣớc
MRA ANOVA ARIMA chính trong | PTZD03 | đƣợc trình bày nhƣ
MODELING sau.
SWT P BOX JENKINS
METHODOLOGY MÔ HÌNH HÓA MRA ANOVA ARIMA
SWT P BOX JENKINS
PHƢƠNG PHÁP
Figure 3.1: The forecasting methodology Hình 3.1: Phƣơng pháp dự báo đƣợc đề xuất
proposed in |PTZD03|. trong | PTZD03 |.
Mục đích của chúng tôi là làm cho các
Our purpose is to adapt the forecasting
thuật toán dự báo đƣợc đề xuất trong |
algorithm proposed in |PTZD03| to the case of
PTZD03 | có thể áp dụng đƣợc cho các
a WiMAX network. In Figure 3.2 are presented
trƣờng hợp mạng WiMAX. Trong hình 3.2,
the main steps followed in the case of WiMAX
các bƣớc chính đƣợc trình bày cho trƣờng
traffic. A series of modification have been
hợp lƣu lƣợng tin WiMAX. Chúng tôi đã
made in order to adapt the methodology
thực hiện một loạt các thay đổi để thích ứng
proposed in |PTZD03|. These modifications
hóa phƣơng pháp đƣợc đề xuất trong |
will be highlighted in the following sections of
PTZD03 |. Những thay đổi này sẽ đƣợc
this chapter.
nhấn mạnh trong các phần sau của chƣơng
này.
MRA
SWT ANOVA
MRA MÔ HÌNH HÓA P-® ARIMA PHƢƠNG
SWT ANOVA PHÁP BOX JENKINS
P-® ARIMA MODELING BOX
JENKINS METHODOLOGY Hình 3.2: Phƣơng pháp dự báo trong trƣờng
Figure 3,2: The forecasting methodology in the hợp lƣu lƣợng tin WiMAX.
case of WiMAX traffic.
A prediction of the moment when a BS will Chúng ta có thể thực hiện dự báo về thời
saturate can be realized using both estimated điểm bão hòa của BS sử dụng cả hai đặc
features for the traffic which corresponds to trƣng đƣợc ƣớc lƣợng đối với lƣu lƣợng tin
that BS, So, the traffic forecasting tƣơng ứng với BS đó, Vì vậy, các phƣơng
methodology, which will be applied in this pháp dự báo lƣu lƣợng tin sẽ đƣợc áp dụng
chapter, analyzes the elements of the database trong chƣơng này, phân tích các yếu tố của
(for knowledge discovery purposes) and cơ sở dữ liệu (phục vụ cho mục đích khám
extracts two features of those time-series. The phá tri thức) và trích xuất hai tính chất của
data features extraction represents a common các chuỗi thời gian đó. Trích xuất các tính
operation in the data mining field. This chất của cơ sở dữ liệu thể hiện một hoạt
methodology is based on statistical data động phổ biến trong lĩnh vực khai thác dữ
processing in the field of wavelets and follows liệu. Phƣơng pháp này dựa trên xử lý dƣ
CRISP-DM |ea00| phases, as will be shown in liệu thống kê trong lĩnh vực Wavelet và tuân
the following section. theo các pha CRISP-DM | ea00 |, vấn đề này
sẽ đƣợc trình bày trong phần sau.
3.2 Phases of a Data Mining Project 3.2 Các giai đoạn của một dự án khai thác
dữ liệu
Khám phá tri thức là một lĩnh vực tìm kiếm
Knowledge Discovery is a domain that searches tri thức mới về một lĩnh vực ứng dụng. Một
new knowledge about an application domain. trong những nhánh nhỏ của nó là khai thác
One of its branches is Data mining which is an dữ liệu, là một quá trình phân tích đƣợc
analytic process designed to explore and to thiết kế để khám phá và trích xuất các thông
extract useful information from large volume of tin hữu ích từ một khối lƣợng lớn dữ liệu.
data.
According to CRISP-DM the process has Theo CRISP-DM quá trình này có một số
several steps, |ea00|: bƣớc, | ea00 |:
1, Tìm hiểu nghiệp vụ,
1, Business understanding,
2, Data understanding, 2, Tìm hiểu dữ liệu,
3, Data preparation,
4, Modeling, 3, Chuẩn bị dữ liệu,
5, Evaluation, 4, Mô hình hóa,
6, Deployment,
5, Đánh giá,
6, Triển khai,
The succession of those phases and their Tính liên tiếp của những giai đoạn này và sự
interdependence are represented in Figure 3,3, phụ thuộc lẫn nhau của chúng đƣợc biểu
diễn trong hình 3.3.
Figure 3,3: Phases of a data mining project. Hình 3.3: Các giai đoạn trong dự án xử lý
dữ liệu.
Bƣớc đầu tiên trong dự án khai thác dữ liệu
The first step of the data mining project is to
understand the application in which it is là tìm hiểu ứng dụng có liên quan đến nó
involved (business understanding). This goal is (tìm hiểu nghiệp vụ). Mục tiêu này đƣợc
implemented iteratively, by collaboration with thực hiện lặp đi lặp lại, qua sự kết hợp với
other phases as data understanding or các giai đoạn khác nhƣ tìm hiểu dữ liệu
evaluation. The second step of the data mining hoặc đánh giá. Bƣớc thứ hai trong dự án
project is data understanding. It is based on the khai thác dữ liệu là tìm hiểu dữ liệu. Nó dựa
first step and has an iterative implementation as trên bƣớc đầu tiên và cũng đƣợc thực hiện
well. The data understanding goal can be seen nhiều lần. Mục đích của việc tìm hiểu dữ
as a feedback for the business understanding liệu có thể đƣợc xem nhƣ sự phản hồi thông
goal. A first business understanding allows a tin cho mục tiêu tìm hiểu nghiệp vụ. Trƣớc
preliminary data understanding. With this hết, tìm hiểu nghiệp vụ cho phép chúng ta
acquired knowledge, the process of business hiểu sơ bộ về dữ liệu. Với những kiến thức
understanding is improved and as a này, quá trình tìm hiểu nghiệp vụ đƣợc cải
consequence, the data understanding process is thiện và hệ quả là, quá trình tìm hiểu dữ liệu
improved as well. The third phase of the cũng đƣợc cải thiện. Giai đoạn thứ ba của
process is data preparation. Generally, the raw quá trình này là chuẩn bị dữ liệu. Nói
data are affected by inaccuracies of sensors and chung, các dữ liệu thô bị ảnh hƣởng bởi sự
acquisition systems, for example the traces thiếu chính xác của cảm biến và hệ thống
from data bases contain missing data. For this thu thập, ví dụ nhƣ các vết từ cơ sở dữ liệu
reason, the phase of data preparation is required chứa thông tin khuyết. Vì lý do này, trong
in a data mining project. This phase consist in dự án khai thác dữ liệu, giai đoạn chuẩn bị
putting the data in the most appropriate form dữ liệu là cần thiết. Giai đoạn này bao gồm
for the subsequent phase of the data mining việc đƣa dữ liệu sang dạng thích hợp nhất
project, which is the modeling phase. As in the cho giai đoạn tiếp theo của dự án khai thác
case of the pair of phases composed by the dữ liệu, đó là giai đoạn mô hình hóa. Cũng
business understanding phase and the data nhƣ trong trƣờng hợp cặp giai đoạn tìm hiểu
understanding phase, the data preparation and nghiệp vụ và tìm hiểu dữ liệu, các giai đoạn
the modeling phases are interdependent. The chuẩn bị dữ liệu và mô hình hóa dữ liệu phụ
modeling step is one of the most important for thuộc lẫn nhau. Bƣớc mô hình hóa là một
the data mining project, because it allows the trong những bƣớc quan trọng nhất trong dự
representation of data in a form favorable for án khai thác dữ liệu, bởi vì nó cho phép biểu
the extraction of some features useful for the diễn dữ liệu ở dạng thuận lợi cho việc trích
application considered. The evaluation phase is xuất một số tính năng hữu ích cho ứng dụng
very important as well. It permits the đang xét. Giai đoạn đánh giá cũng rất quan
appreciation of the quality of the model trọng. Nó cho phép đánh giá chất lƣợng của
selected. It has also a regulatory function in the mô hình đƣợc chọn. Cũng có một hàm điều
data mining project, influencing its first phase, hòa trong dự án khai thác dữ liệu, ảnh
the business understanding. The last step of the hƣởng đến giai đoạn đầu tiên của nó, giai
CRISP-DM project consists in deployment. In đoạn tìm hiểu nghiệp vụ. Bƣớc cuối cùng
the following are presented details about these của dự án CRISP-DM là bƣớc triển khai.
phases and how are they implemented for Trong phần sau, chúng tôi sẽ trình bày chi
WiMAX traffic prediction based on the tiết về những giai đoạn này và cách thức
forecasting algorithm proposed in [PTZD03], thực thi chúng để tiên đoán lƣu lƣợng tin
This algorithm was conceived for the prediction WiMAX dựa trên thuật toán dự báo đƣợc
of the moment when the amount of traffic will trình bày trong [PTZD03], Thuật toán này
produce the saturation of a router from a given đƣợc thiết kế để dự đoán thời điểm mà
node of a wired network. We have adapted this lƣợng tin sẽ tạo ra hiện tƣợng bão hòa bộ
algorithm for the case of WiMAX traffic. định tuyến từ một nút nhất định của một
mạng có dây. Chúng tôi đã điều chỉnh thuật
toán này để có thể áp dụng đƣợc cho trƣờng
The phases of the new algorithm are: MRA of hợp lƣu lƣợng tin WiMAX. Các giai đoạn
traffic traces, selection of the most important của thuật toán mới là: MRA của các vết lƣu
resolutions for the extraction of the overall lƣơng tin, lựa chọn độ phân giải quan trọng
tendency and of the variability of the WiMAX nhất cho việc trích xuất khuynh hƣớng
traffic, ARIMA modeling of those two features, chung và sự thay đổi của lƣu lƣợng tin
models validation using the Box-Jenkins WiMAX, mô hình hóa ARIMA của hai tính
methodology and extraction of an estimation of năng này, đánh giá các mô hình sử dụng
the moment when the corresponding BS will phƣơng pháp Box-Jenkins và trích xuất ƣớc
saturate. In the following are presented details lƣợng thời điểm khi BS tƣơng ứng bão hòa.
about the correspondence between the phases Trong những phần sau, chúng tôi sẽ trình
of the proposed algorithm and the phases of a bày chi tiết về sự tƣơng ứng giữa các giai
data-mining project, already mentioned. đoạn của thuật toán đƣợc đề xuất và các giai
đoạn của dự án khai thác dữ liệu.
3.2.1 Business Understanding
3.2.1 Tìm hiểu nghiệp vụ
The first phase of a data mining project Giai đoạn đầu của một dự án khai thác dữ
involves: understanding the objectives and the liệu bao gồm: tìm hiểu các mục tiêu và yêu
requirements of the project, the problem cầu của dự án, định nghĩa bài toán và thiết
definition and designing a preliminary plan to kế dự án sơ bộ để đạt đƣợc các mục tiêu.
achieve the objectives. The objective of the Mục tiêu của thuật toán đề xuất là dự đoán
proposed algorithm is to predict when upgrades thời điểm diễn ra quá trình cặp nhật một BS
of a given BS have to take place. We compute nhất định. Chúng ta tính toán nhu cầu tổng
an aggregate demand for each BS and we look hợp cho mỗi BS và chúng ta nhìn vào sự
at its evolution at time scales larger than one phát triển của nó ở các thang thời gian lớn
hour. The requirement of the project is to do hơn một giờ. Yêu cầu của dự án là thực hiện
this prediction fast and precise. We have dự đoán này nhanh và chính xác. Chúng tôi
chosen the forecasting methodology proposed đã lựa chọn các phƣơng pháp dự báo đƣợc
in [PTZD03] and our preliminary plan was to đề xuất trong [PTZD03] và kế hoạch sơ bộ
adapt this methodology to the case of a của chúng tôi là làm cho phƣơng pháp này
WiMAX network.
thích ứng với trƣờng hợp mạng WiMAX.
The traces from the database are accessible in Các vết từ cơ sở dữ liệu có thể truy cập dƣới
two formats corresponding to two measures of hai định dạng tƣơng ứng với hai lần đo lƣu
the traffic, in bytes and in packets. For our lƣợng tin, theo byte và theo gói tin. Đối với
simulations we will analyze the traffic mô phỏng của chúng ta, chúng ta sẽ phân
measured in packets (because it is simpler to tích lƣu lƣợng tin đƣợc đo theo gói tin (vì
handle time-series with smaller values of nhƣ vậy sẽ giúp đơn giản hơn trong quá
samples), corresponding to uplink and trình khảo sát các chuỗi thời gian với các
downlink channel. For the application under giá trị mẫu nhỏ hơn), tƣơng ứng với kênh
consideration, which consists in estimating the uplink và down link. Đối với các ứng dụng
moment when each BS’s traffic becomes đang xét, trong đó bao gồm việc ƣớc tính
comparable with the BSs’ capacity, it is more thời điểm mỗi lƣu lƣợng tin BS xấp xỉ dung
important the downlink channel (where the lƣợng BS, kênh downlink sẽ trở nên quan
traffic has a higher volume). Therefore, the trọng hơn (trong đó lƣu lƣợng tin có dung
results presented in the following correspond to lƣợng cao hơn). Vì vậy, kết quả trình bày
downlink channel. The risk of saturation of the trong phần sau tƣơng ứng với kênh
BS in uplink is considerably smaller, downlink. Nguy cơ bão hòa của các BS
trong uplink nhỏ hơn đáng kể,
The incomplete or missing data constitute a Dữ liệu khuyết hoặc không hoàn chỉnh có
problem. Despite the efforts made to reduce thể gây ra vấn đề. Mặc dù ngƣời ta luôn cố
their occurrence, in most cases missing values gắng giảm khả năng xuất hiện của chúng,
cannot be avoided. If the number of missing trong nhiều trƣờng hợp, chúng ta cũng
values is big, the results are nor relevant. It is không thể tránh đƣợc các giá trị khuyết. Nếu
therefore essential to know how to minimize số giá trị khuyết lớn, các kết quả không
the amount of missing values and which thích hợp. Do đó, vấn đề cơ bản là chúng ta
strategy to select in order to handle missing cần phải biết cách cực tiểu hóa lƣợng giá trị
data. There are several strategies of handling khuyết và chọn chiến lƣợc thích hợp để xử
missing data, for example delete all instances lý dữ liệu khuyết. Có một số chiến lƣợc để
where there is at least one missing value, xử lý dữ liệu khuyết, chẳng hạn nhƣ xóa tất
replacing missing attribute values by the cả các đối tƣợng trong đó có ít nhất một giá
attribute mean or to estimate each of the trị khuyết, thay thế giá trị có thuộc tính
missing values using the values that are present khuyết bằng các giá trị có thuộc tính trung
in the dataset (interpolation) [EM05], There are bình hoặc ƣớc tính mỗi gía trị khuyết bằng
many different interpolation methods such as các giá trị có trong tập dữ liệu (nội suy )
linear, polynomial, cubic or nearest neighbor [EM05], có rất nhiều phƣơng pháp nội suy
interpolation. We choose the cubic khác nhau nhƣ tuyến tính, đa thức, bậc ba
interpolation because for some BSs the missing hoặc nội suy lân cận gần nhất. Chúng tôi
values are situated on the first/last position of chọn phƣơng pháp nội suy bậc ba bởi vì đối
the vector and this fact forbids us to use, for với một số BS các giá trị khuyết nằm trên vị
example, the linear interpolation. trí đầu tiên/cuối cùng của vector và việc này
ngăn cản chúng ta sử dụng nội suy tuyến
tính.
Ở giai đoạn này, các dữ liệu đầu vào cũng
At this stage, the input data is also analyzed in
đƣợc phân tích để phát hiện tính tuần hoàn
order to find if it contains periodicities. The
simple plot of the traffic curves proved the của nó. Đồ thị đơn giản của đƣờng cong lƣu
existence of periodicities in the traffic. In lƣợng tin chứng minh cho sự tồn tại tính
Figure 3,4 is presented a signal representing the tuần hoàn trong lƣu lƣợng tin. Trong hình
traffic evolution during one week for a given 3.4, chúng tôi trình bày một tín hiệu biểu
BS randomly selected. diễn sự biến đổi lƣu lƣợng tin trong một
tuần đối với một BS đƣợc chọn ngẫu nhiên.
Figure 3.4: A curve describing the weekly Hình 3.4: Đƣờng cong mô tả sự tiến triển
traffic evolution for a BS arbitrarily selected. lƣu lƣợng tin hàng tuần đối với một BS
đƣợc chọn tùy ý.
Để xác minh sự tồn tại của tính chu kỳ,
In order to verify the existence of periodicities chúng tôi tính biến đổi Fourier của tín hiệu
we calculate the Fourier transform of the signal và chúng tôi phân tích mật độ phổ trong
and we analyze the power spectral density in hình 3.5.
Figure 3.5.
Looking at Figure 3.5 we can remark the eight Nhìn vào hình 3.5 chúng ta chú ý đến tám
harmonic. The sampling step used has a value hài. Bƣớc lấy mẫu đƣợc sử dụng có giá trị
of 15 minutes. It corresponds to a sampling 15 phút. Nó tƣơng ứng với tần số lấy mẫu là
frequency of 1.1 mHz. So, the maximal 1,1 MHz. Vì vậy, tần số cực đại chứa trong
frequency contained in the analyzed power mật độ phổ công suất phân tích bằng nửa
spectral densities equals half of the sampling tần số lấy mẫu, 0,55 MHz.
frequency, 0.55 mHz.
Phép biểu diễn chứa 670 giá trị. Do đó tần
The representation contains 670 values. Hence
số cơ bản của biểu diễn bằng 0.55 mHz/335
the fundamental frequency of the representation
(giá trị 355 là kết quả của việc chia tổng số
equals 0.55 mHz/335 (the value 355 was
mẫu cho 2). Tần số của hài thứ 8 bằng 0.013
obtained by dividing the total number of
MHz. Chu kỳ tƣơng ứng bằng 76.923,07
samples with 2). The frequency of the eighth
giây, hoặc 1.282,05 phút hoặc 21.36 giờ
harmonic equals 0.013 mHz. The
(gần 24 giờ). Chu kỳ tƣơng ứng với hài thứ
corresponding period is equal with 76923.07 s,
chín bằng 3.69 giờ. Do đó, chúng tôi có thể
or 1282.05 minutes or 21.36 hours (near 24
ghép hài thứ tám với chu kỳ 24 giờ, bởi vì
hours). The period corresponding to the ninth
giá trị này gần 21.36 giờ hơn 3.69 giờ. Vì
harmonic equals 3,69 hours. Hence, we can
vậy, kết quả trong hình trƣớc cho thấy rằng
associate the eight harmonic with a period of 24
một trong những chu kỳ chiếm ƣu thế trên
hours, because this value is closer of 21.36
tất cả các vết là chu kỳ 24 giờ. Vết trong
hours than 3,69 hours. So, the results in
hình 3.5 đƣợc chọn tùy ý. Có các vết khác
previous figure indicate that one of the most
trong cơ sở dữ liệu mà hài thứ tám chiếm ƣu
dominant periods across all traces is the 24
thế, lớn hơn vài lần so với các hài khác và
hours one. The trace in Figure 3.5 was
thể hiện tính tuần hoàn với chu kỳ 24 giờ
arbitrarily chosen. There are other traces in the
của lƣu lƣợng tin. Tuy nhiên, tùy thuộc vào
data base for which the eight harmonic is
dominant, being several times bigger than the vết, sự tuần hoàn với chu kỳ 24 giờ có thể bị
other harmonics and proving the periodicity ẩn. Đây là ví dụ về trƣờng hợp BS2 đƣợc
with the period of 24 hours of the traffic. biểu diễn trong hình 3.6. Chu kỳ này có
However, depending on trace, the periodicity những lý do xã hội phản ánh đặc tính hoạt
with the period of 24 hours can be also hidden. động của mạng vào ban ngày. Đặc tính hoạt
This is for example the case of the BS2 showed động theo mùa nhƣ vậy thƣờng xuất hiện
in Figure 3.6. This periodicity has social trong các chuỗi thời gian thực tế.
reasons reflecting a pattern of diurnal
comportment of the network. Such seasonal
behavior is commonly observed in practical
time-series.
Figure 3,5: The power spectral density of the Hình 3.5: Mật đổ phổ công suất của tín hiệu
signal from Figure 4,4, ở hình 4.4.
Figure 3,6: The power spectral density of the
Hình 3.6: Mật độ phổ công suất của vết lƣu
traffic trace corresponding to BS2,
lƣợng tin tƣơng ứng với BS2,
In the rest of this chapter we will explain the Trong phần còn lại của chƣơng này, chúng
phases of the forecasting algorithm using an tôi sẽ giải thích các giai đoạn của thuật toán
example of a particular trace (corresponding to dự báo sử dụng ví dụ về một vết đặc biệt
BS1). (tƣơng ứng với BS1).
Next, we consider a traffic curve recorded Tiếp theo, chúng ta xét đƣờng cong lƣu
during eight weeks represented in Figure 3.7 lƣợng tin ghi nhận đƣợc trong tám tuần
with blue. The long-term trend (red line) and đƣợc biểu diễn trong hình 3.7 bằng màu
the deviations from the long-term trend (the xanh. Xu hƣớng dài hạn (đƣờng màu đỏ) và
green and the black lines) are also shown in độ lệch khỏi xu hƣớng dài hạn (màu xanh lá
Figure 3.7. A traffic curve recorded during 8 cây và các đƣờng màu đen) cũng đƣợc biểu
weeks, its long term trend (approximation 6) diễn trong hình 3.7. Đƣờng cong lƣu lƣợng
and the deviations from sixth approximation. tin đƣợc ghi nhận trong tám tuần, khuynh
hƣớng thời gian dài của nó (khoảng 6) và
các độ lệch so với gần đúng thứ sáu.
Đƣờng cong chứa các xu hƣớng tổng thể cơ
The curve contain specific underlying overall bản cụ thể, đƣợc biểu diễn màu đỏ. Đƣờng
trends, represented in red. The curve in blue cong màu xanh mô tả sự tiến triển lƣu lƣợng
describes the traffic evolution measured in tin đo đƣợc theo đơn vị gói tin/s đối với
number of packets/s for a BS1, during eight BS1 trong tám tuần. Hai đƣờng cong còn lại
weeks. The other two curves show the biểu diễn độ lệch, cộng (màu xanh lục)/trừ
deviation, plus (in g re en)/minus (in black), (màu đen) từ giá trị gần đúng của tín hiệu.
from the signal approximation. It can b e Chúng ta có thể thấy rằng một phần lớn lƣu
observed that a large part of the traffic is
contained between the green and black lines. lƣợng tin đƣợc chứa giữa các đƣờng màu
The red line indicates an incre asing of the tra-c xanh và màu đen. Đƣờng màu đỏ cho thấy
in time suggesting the possibility of saturation sự tăng lƣu lƣợng tin theo thời gian cho
of the corresponding BS1. chúng ta biết khả năng bão hòa của BS1
tƣơng ứng.
Next, we propose a multi-timescale analysis.
We used the SWT to decomp ose the original Tiếp theo, chúng tôi đề xuất phân tích nhiều
signal into a range of frequency bands. The thang thời gian. Chúng tôi đã sử dụng SWT
level of decomposition (n), depends on the để phân tích tín hiệu ban đầu thành một
length of the original signal. For a discrete khoảng dải tần số. Mức phân tích (n), phụ
signal, in order to be able to apply the SWT, if thuộc vào chiều dài của tín hiệu ban đầu.
the decomposition at leveln is needed, 2n must Đối với tín hiệu rời rạc, để có thể áp dụng
divide evenly the length of the signal. The nth SWT, nếu phân tích ở mức n cần thiết, 2n
level of decomposition, gives us n+ 1 signals phải chia đều cho chiều dài tín hiệu. Mức
for processing: one approximation signal phân tích thứ n, cho chúng ta n+1 tín hiệu
corresponding to the current level and n detail để xử lý: một tín hiệu gần đúng tƣơng ứng
sequences corresponding to each of then với mức hiện tại và n chuỗi chi tiết tƣơng
decomposition levels. Thenapproximation ứng với mỗi mức phân tích sau đó. Chuỗi
sequences comp ose a multiresolution analysis gần đúng tạo thành một phân tích đa phân
(MRA), The value of n gives the maximal giải (MRA), giá trị n cho chúng ta số phân
number of resolutions which can be used in the giải cực đại đƣợc sử dụng trong MRA. Điều
MRA, It corresponds to the poorer time đó tƣơng ứng với phân giải thời gian kém
resolution. hơn.
There is shown that WiMAX traffic exhibits Ngƣời ta đã chứng minh rằng lƣu lƣợng tin
some periodicities which are better noticed if WiMAX thể hiện một số chu kỳ đƣợc nhận
we modify the sampling interval from 15 thấy tốt hơn nếu chúng ta thay đổi khoảng
minutes to 90 minutes. So, by temporal cách lấy mẫu từ 15 phút đến 90 phút.Vì vậy,
decimation with a factor of six, these time tạm thời lấy ra một phần mƣời của hệ số
series can be transformed in signals at a sáu, các chuỗi thời gian này có thể đƣợc
temporal resolution of 1,5 hours. This chuyển thành các tín hiệu với độ phân giải
represents the highest time resolution which is thời gian 1.5 giờ. Điều này biểu diễn phân
used in the proposed MRA, Further on these giải thời gian lớn nhất đƣợc sử dụng trong
temporal series will be denoted by casd(t), The MRA đƣợc đề xuất. Hơn nữa, những chuỗi
derived temporal series casd(2pt) have a thời gian này sẽ đƣợc kí hiệu là casd (t), Các
temporal resolution of 2p * 1, 5 hours. chuỗi thời gian đƣợc rút ra casd (2pt) có độ
phân giải thời gian 2p * 1, 5 giờ.
To extract the overall trends of the traffic time Để trích xuất các xu hƣớng tổng thể của
series, the MRA of the temporal series casd(t) chuỗi thời gian lƣu lƣợng tin, ngƣời ta thực
using temporal resolutions between 1,5 and 96 hiện MRA của các chuỗi thời gian casd sử
hours is done. dụng độ phân giải thời gian từ 1,5 đến 96.
We used Shensa’s algorithm (which
corresponds to the computation of the SWT Chúng tôi sử dụng thuật toán Shensa
with six levels of decomposition). In this case (tƣơng ứng với các tính toán của SWT với
the utilization of decimators (required for the sáu mức phân tích). Trong trƣờng hợp này,
computation of DWT) is avoided but at each chúng ta không cần phải dùng decimators
iteration different low-pass and high-pass filters (bộ đếm thập phân) (cần thiết cho việc tính
are used. The impulse responses of the filters toán DWT) mà phải dùng các bộ lọc thông
from the second iteration are obtained by sub- thấp và thông cao khác nhau ở mỗi lần lặp.
sampling the impulse responses of the filters Các đáp ứng xung của các bộ lọc ở lần lặp
from the first iteration and so on. thứ hai thu đƣợc bằng cách lấy mẫu phụ các
đáp ứng xung của các bộ lọc từ lần lặp đầu
tiên và v.v….
At each temporal resolution two categories of Ở mỗi độ phân giải thời gian, chúng ta thu
coefficients are obtained: approximation đƣợc hai loại hệ số: hệ số xấp xỉ và hệ số
coefficients and detail coefficients. In Figure chi tiết. Trong hình 3,8, các hệ số xấp xỉ
3,8 are shown approximation coefficients for đƣợc biểu diễn cho sáu mức phân tích.
six level of decomposition.
Figure 3,8: The approximation coefficients. Hình 3,8: Các hệ số xấp xỉ.
Chúng ta có thể thấy rằng cùng với việc
It can be observed that with the increasing of
tăng mức phân tích, chuỗi các hệ số xấp xỉ
the level of decomposition, the sequence of
trở nên trơn hơn. Chuỗi gần đúng đầu tiên
approximation coefficients becomes more
(gần đúng 1) chứa những dao động rất
smoothed. The first sequence of approximation
nhanh và cao. Chuỗi tƣơng ứng với gần
(approximation 1) contains very rapid and high
đúng thứ sáu trơn hơn nhiều và không chứa
oscillations. The sequence corresponding to the
bất kỳ dao động nhanh nào. Các mô phỏng
sixth approximation is much smoothed and
sơ bộ đƣợc trình bày trong trong nghiên cứu
does not contain any rapid oscillation.
có liên quan đến một hợp đồng đƣợc phát
Preliminary simulations presented in a research
triển bởi khoa của chúng tôi cho Alcatel-
rapport afferent to a contract developed by our
Lucent Timisoara chứng minh rằng xu
department for Alcatel-Lucent Timisoara prove
hƣớng chung của các chuỗi thời gian lƣu
that the overall trend of the traffic time series is
lƣợng tin sẽ đƣợc nhấn mạnh tốt hơn khi sử
better highlighted by the approximation
dụng các hệ số xấp xỉ thu đƣợc ở độ phân
coefficients obtained at the time resolution of
giải thời gian 96 giờ (tƣơng ứng với mức
96 hours (corresponding to the sixth
phân tích thứ sáu), c6. Trong bối cảnh khai
decomposition level), c6. In the data-mining
thác dữ liệu, việc tách chuỗi hệ số xấp xỉ
context, the separation of the last sequence of
cuối cùng thu đƣợc dựa trên MRA có thể
approximation coefficients obtained based on a
đƣợc xem là một hoạt động chuẩn bị dữ
MRA can be regarded as a data preparation
liệu, bởi vì dạng chuỗi này thích hợp cho
operation, because the form of this sequence is
appropriate for modeling the overall tendency việc mô hình hóa khuynh hƣớng tổng thể
of the traffic with the aid of linear predictive của lƣu lƣợng tin với sự hổ trợ của các mô
models. hình dự báo tuyến tính.
The goal of using the MRA in our work is to
extract the overall trend of the temporal series Mục đích của việc sử dụng MRA trong
that describes the traffic under analysis with the công trình của chúng tôi là để trích xuất các
aid of the approximation coefficients, and to xu hƣớng chung của các chuỗi thời gian với
extract the variability around the overall trend sự hổ trợ của các hệ số xấp xỉ, và để trích
with the aid of some detail coefficients. The six xuất các biến đổi xung quanh xu hƣớng tổng
detail coefficients obtained after decomposition thể với sự trợ giúp của một số hệ số chi tiết.
are depicted in Figure 3.9. Sáu hệ số chi tiết thu đƣợc sau khi phân tích
đƣợc mô tả trong hình 3.9.
Figure 3.9: The detail coefficients. Hình 3.9: Các hệ số chi tiết.
Another data preparation operation contained in Một phép toán chuẩn bị dữ liệu khác chứa
the forecasting algorithm proposed in |PTZD03| trong thuật toán dự báo đƣợc đề xuất trong |
refers to detail coefficients illustrated in Figure PTZD03 | đề cập đến các hệ số chi tiết đƣợc
3.9. These sequences reflect the variability of minh họa trong hình 3.9. Các chuỗi này
the traffic and have different energies. In the phản ánh sự thay đổi của lƣu lƣợng tin và có
following the detail sequences corresponding to các năng lƣợng khác nhau. Trong phần sau
time resolutions between 1,5 hours and 96 đây, các chuỗi chi tiết tƣơng ứng với phân
hours will be denoted bv d1 — d6. The giải thời gian từ 1.5 đến 96 giờ sẽ đƣợc kí
equation describing the proposed multi- hiệu là d1 - d6. Phƣơng trình mô tả phân
timescale analysis is: tích nhiều thang thời gian đƣợc đề xuất là:
……………………
Tính toán năng lƣợng của các chuỗi chi tiết
Computing the energies of the detail sequences
tƣơng ứng với ví dụ của chúng ta năng
corresponding to our example the higher energy
lƣợng cao hơn tƣơng ứng với d3 (độ phân
corresponds to d3 (the time resolution of 12
giải thời gian 12 giờ). Giá trị năng lƣợng chi
hours). The next detail energy value in
tiết tiếp theo trong bậc giảm tƣơng ứng với
decreasing order corresponds to a time
độ phân giải thời gian 24 giờ (d4 chi tiết),
resolution of 24 hours (the detail d4), where the
trong đó năng lƣợng chứa trong casd(t)
energy contained in casd(t) is defined as:
đƣợc định nghĩa là:
lcasd(t)l2dt = ||casd(t)||2. (3.2)
lcasd(t)l2dt = ||casd(t)||2. (3.2)
Hence, we have decided to ignore the detail Do đó, chúng tôi đã quyết định bỏ qua các
sequences with small energies to reduce the chuỗi chi tiết với năng lƣợng nhỏ để rút gọn
…………….. thành
The model in (3.3) represents the new statistical Mô hình trong (3.3) biểu diễn mô hình
model for the traffic time-series which we want thống kê mới cho các chuỗi thời gian lƣu
to forecast. It reduces the multiple linear lƣợng tin mà chúng ta muốn dự báo. Nó rút
regression model in (3.1) at two components gọn mô hình hồi quy tuyến tính nhiều biến
……………. (3.1) tại hai thành phần
In order to use the new statistical model, the Để sử dụng các mô hình thống kê mới,
weights ^d 7 must be identified (see Figure chúng ta phải xác định các trọng số ^ d 7
3.10 and 3.11). First, for the identification of (xem hình 3.10 và 3.11). Đầu tiên, để xác
the weight ft, the contribution of the định trọng số ft, sự đóng góp của các hệ số
coefficients d4 is neglected. So, the new d4 đƣợc bỏ qua. Vì vậy, mô hình thống kê
statistical model will be expressed by: mới sẽ đƣợc biểu diễn là:
trong đó e (t) biểu diễn sai số của mô hình
where e(t) represents the error of the new thống kê mới.
statistical model.
The parametercan b e found by minimizi ng the Chúng ta có thể tìm đƣợc tham số bằng
mean square ofe(t), (see Figure 3. 10), cách cho bình phƣơng trung bình của e(t)
cực tiểu, (xem hình 3.10).
Các quy trình tìm kiếm đƣợc đề cập trƣớc
The already mentioned search procedure can be
đây có thể đƣợc sử dụng cho tính toán . d4
also used for the computation of 7. This d4 will
này sẽ đƣợc biểu diễn là:
be expressed by:
The parameter 7 can be found by minimizing Chúng ta có thể tìm tham số bằng cách
the new mean square of e(t), (see Figure 3,11), cực tiểu hóa bình phƣơng trung bình mới
………….. của e (t), (xem Hình 3.11),
In Figure 3.12 is presented the reconstruction of Trong hình 3.12, chúng tôi trình bày việc tái
the original traffic (first plot) using (realized tạo lƣu lƣợng tin ban đầu (đồ thị thứ nhất)
using ftd3-second plot and fid3 + Y^-third sử dụng (đƣợc thực hiện dùng đồ thị thứ hai
plot). The approximation errors are higher in fid3 và đồ thị thứ ba …..). Các sai số xấp xỉ
the second plot than in the third plot. This trong đồ thị thứ hai cao hơn trong đồ thị thứ
remark justifies the utilization of both weights ba. Nhận xét này chứng minh cho việc sử
^d y- The approximation in the second plot is dụng cả hai trọng số d ^ y-Gần đúng trong
smoother than the approximation in the third đồ thị thứ hai trơn hơn gần đúng trong đồ
plot. So, the utilization of the weight thị thứ ba. Vì vậy, việc sử dụng trọng số
diminishes the high frequency components of triệt tiêu thành phần tần số cao của sai số.
the errors. Để phục vụ cho mục đích hoạch định khả
For capacity planning purposes, one only needs năng cung cấp, ngƣời ta chỉ cần biết ngƣỡng
to know the traffic baseline in the future along lƣu lƣợng tin trong tƣơng lai cùng với
with possible fluctuations of the traffic around những dao động khả dĩ của lƣu lƣợng tin
this particular baseline. Since our goal is not to quanh ngƣỡng này. Vì mục tiêu của chúng
forecast the exact amount of traffic on a
particular day in the future, we calculate the ta không phải là dự đoán chính xác tổng lƣu
weekly standard deviation as the average of the lƣợng tin vào một ngày cụ thể trong tƣơng
seven values computed within each week. Such lai, chúng tôi tính toán độ lệch chuẩn hàng
a metric represents the fluctuations of the tuần dƣới dạng trung bình của bảy giá trị
traffic around the long term trend from day to đƣợc tính trong mỗi tuần. Một đại lƣơng
day within each particular week. nhƣ thế biểu diễn sự dao động của lƣu
lƣợng tin xung quanh khuynh hƣớng dài hạn
ngày qua ngày trong mỗi tuần cụ thể.
Given that the 6th approximation signal is a Miễn là tín hiệu gần đúng thứ 6 là gần đúng
very smooth approximation of the original rất trơn của tín hiệu ban đầu, chúng ta tính
signal, we calculate its average across each trung bình của nó qua mỗi tuần, và tạo ra
week, and create a new time series capturing một chuỗi thời gian mới nắm bắt đƣợc xu
the long term trend from one week to the next. hƣớng dài hạn từ một tuần sang tuần kế
The resulting signal is presented in Figure 3.13, tiếp.Tín hiệu cuối cùng đƣợc biểu diễn trong
in red. It can be observed that this signal hình 3.13 màu đỏ. Chúng ta có thể thấy rằng
represents a good approximation of the overall tín hiệu này biểu diễn xấp xỉ tốt của khuynh
tendencv of the traffic. hƣớng tổng thể của lƣu lƣợng tin.
Figure 3.13: Approximation of the signal using Hình 3.13: Gần đúng của tín hiệu sử dụng
the average weekly long term trend and the khuynh hƣớng dài hạn trung bình hàng tuần
average daily standard deviation within a week. và độ lệch tiêu chuẩn trung bình hàng ngày
trong một tuần.
Approximating the original signal using weekly Tính gần đúng tín hiệu ban đầu dùng các giá
average values for the overall long term trend, trị trung bình hàng tuần cho khuynh hƣớng
and the daily standard deviation results in a dài hạn tổng thể và độ lệch tiêu chuẩn hàng
model which accurately captures the desired ngày dẫn đến một mô hình phản ánh chính
behavior. So, our data are prepared now for the xác đặc trƣng đang xét. Vì vậy, lúc này, dữ
modeling of the overall tendency of the traffic liệu của chúng tôi đƣợc chuẩn bị để mô hình
and of the variability around this tendency. hóa khuynh hƣớng tổng thể của lƣu lƣợng
tin và sự biến đổi quanh khuynh hƣớng này.
3.2.4 Mô hình hóa
3.2.4 Modeling
Modeling phase involves the selection of Giai đoạn mô hình hóa liên quan đến việc
modeling technique and the estimation of lựa chọn kỹ thuật mô hình hóa và ƣớc tính
model’s parameters. Our goal is to model the các tham số của mô hình. Mục tiêu của
tendency and the variability of the traffic using chúng tôi là mô hình hóa xu hƣớng và sự
linear time series models. thay đổi lƣu lƣợng tin dùng các mô hình
chuỗi thời gian tuyến tính.
Let us denote the terms describing the variance Chúng ta hãy biểu diễn các số hạng mô tả
with: phƣơng sai với:
We used the Box-Jenkins methodology |BJR94| Chúng ta đã sử dụng phƣơng pháp Box-
to fit linear time series models, separately for Jenkins | BJR94 | để khớp các mô hình
the overall trend and for the variability, starting chuỗi thời gian tuyến tính, riêng cho khuynh
with the estimations in Figure 3,12, The hƣớng tổng thể và cho sự thay đổi, bắt đầu
estimations "mean approximation plus" and với các ƣớc tính trong hình 3.12, Các ƣớc
"mean approximation minus" are used for tính "gần đúng trung bình cộng " và "gần
modeling the variability while the estimation đúng trung bình trừ" đƣợc sử dụng để mô
"approximation per week" is used for modeling hình hóa sự thay đổi trong khi ƣớc lƣợng
the overall trend. Such a procedure involves the "gần đúng trên mỗi tuần " đƣợc sử dụng để
following steps: determine the number of mô hình hóa các xu hƣớng chung. Một quy
differencing operations needed to render the trình nhƣ thế bào gồm hai bƣớc: xác định số
time series stationary, determine the values of p phép toán sai phân cần thiết làm cho chuỗi
and q, estimate the polynomials 0, and 6. thời gian tĩnh, xác định các giá trị của p và
q, ƣớc tính các đa thức 0 và 6,
In Figure 3,14 is presented the algorithm that Trong hình 3.14 chúng tôi trình bày giải
lies at the basis of our Matlab® implementation thuật nằm trong cơ sở của quá trình thực thi
of the Box-Jenkins methodology. phƣơng pháp Box-Jenkins bằng Matlab ®.
The goal of the Box-Jenkins methodology is to
find an appropriate model so that the residuals Mục tiêu của phƣơng pháp Box-Jenkins là
are as small as possible and exhibit no pattern, tìm một mô hình thích hợp để các phần dƣ
|BJR94|. The residuals represent all the càng nhỏ càng tốt và không thể hiện hình
influences on the time series which are not dạng | BJR94 |.Các phần dƣ biểu diễn tất cả
explained by other of its components (trend, các ảnh hƣởng trên chuỗi thời gian không
seasonal component, trade cycle). đƣợc diễn giải bởi các thành phần khác của
nó (xu hƣớng, thành phần theo mùa, chu kỳ
thƣơng mại).
Các bƣớc liên quan đến việc xây dựng mô
The steps involved to build the model are
hình đƣợc lặp lại, để tìm ra một công thức
repeated, in order to find a specific multiple
đa thời gian cụ thể sao chép các mô hình
times formula that copies the patterns in the
trong các chuỗi gần nhất có thể và đƣa ra dự
series as closely as possible and produces
báo chính xác. Trƣớc hết, các dữ liệu đầu
accurate forecasts. The input data must be
vào phải đƣợc điều chỉnh để tạo thành một
adjusted first to form a stationary series and
chuỗi tĩnh và tiếp theo, xác định một mô
next, a basic model can be identified |BJR94|.
hình cơ bản | BJR94 |.
ACF and PAC are used to analyze the ACF và PAC đƣợc sử dụng để phân tích
stationaritv of a time series and to estimate the tính chất tĩnh của một chuỗi thời gian và
orders p and q. The ACF and PAC plots are ƣớc tính các bậc p và q. Các đồ thị ACF và
compared to the theoretical behavior of these PAC đƣợc so sánh với đặc tính lý thuyết của
plots when the order is known. For AR(p) các đồ thị này khi đã biết bậc. Đối với các
processes the sample ACF should have an quá trình AR (p), mẫu ACF nên có xu
exponentially decreasing appearance for AR(1), hƣớng giảm theo hàm mũ đối với AR (1),
while higher-order AR processes needs to be trong khi các quá trình AR bậc cao hơn cần
supplemented with a PAC plot because they are phải đƣợc bổ sung với một đồ thị PAC, vì
often a mixture of exponentially decreasing and chúng thƣờng là sự pha trộn của các thành
damped sinusoidal components. The PAC of an phần sin tắt dần và suy giảm theo quy luật
AR(p) process becomes zero at lag p — 1 and hàm mũ. PAC của một quá trình AR(p) tiến
greater. In the case of MA(g) processes the tới không khi độ trễ bằng p - 1 và lớn hơn.
ACF becomes zero at lag q — 1 and greater, Trong trƣờng hợp các quá trình MA (g)
while the sample PAC function is generally not ACF bằng không ở độ trễ q - 1 và lớn hơn,
helpful for identifying the order of the MA(g) trong khi đó, nói chung, hàm PAC mẫu
process. không có ích trong việc xác định bậc của
quá trình MA(g).
In the following we will give an example to Trong phần tiếp theo, chúng tôi sẽ đƣa ra ví
show how is applied the Box-Jenkins dụ để chỉ ra cách áp dụng phƣơng pháp
methodology for WiMAX traffic prediction. In Box-Jenkins để dự đoán lƣu lƣợng tin
Figure 3.15 are presented the approximation WiMAX. Trong hình 3.15, chúng tôi biểu
coefficients (the signal c6) and their first and diễn các hệ số xấp xỉ (tín hiệu c6) và các sai
second differences. phân bậc nhất và bậc hai của chúng.
Sai phân bậc hai của số gần đúng
Second difference of approximation
Figure 3.15: The approximation coefficients Hình 3.15: Các hệ số xấp xỉ (đƣờng thứ
(first line) and their first (second line) and nhất) và các sai phân bậc nhất (đƣờng thứ
second (third line) differences. hai) và bậc hai (đƣờng thứ ba) của chúng.
Bƣớc thứ nhất là nghiên cứu chuỗi nào là
The first step is to study which of these
tĩnh để thiết lập giá trị tham số d (số các
sequences are stationary in order to establish
phép toán sai phân cần thiết để thu đƣợc
the value of the parameter d (the number of
một chuỗi thời gian tĩnh) của mô hình
differencing operations required to obtain a
ARIMA. Có một vài phép kiểm tra các loại
stationary time-series) of the ARIMA model.
tĩnh khác nhau: tĩnh theo trung bình, tĩnh
There are few tests for different type of
theo phƣơng sai, hoặc tĩnh theo nghĩa rộng
stationaritv: stationaritv in mean, stationaritv in
(bậc hai). Phép kiểm tra thứ nhất nhằm xác
variance, or wide sense (second order)
định xem phƣơng sai có phải là hằng số hay
stationaritv. The first test is to verify if the
không, vì vậy chúng ta phải tính toán và so
variance is constant, so we must compute and
sánh các phƣơng sai từng phần (đƣợc xác
compare the partial variances (defined on two
disjoint intervals) of each of the three time định trên hai khoảng rời nhau) của một
series (approximation, its first and its second trong ba chuỗi (xấp xỉ, sai phân bậc nhất và
difference). When both partial variances bậc hai của nó). Khi cả hai phƣơng sai từng
corresponding to the same time-series has the phần tƣơng ứng với cùng một chuỗi thời
same value, we can decide that the considered gian có cùng giá trị, chúng ta có thể khẳng
series is stationary in variance. định rằng chuỗi đƣợc xét có phƣơng sai
The second test is to verify if the time-series is tĩnh. Phƣơng pháp kiểm tra thứ hai giúp
stationary in mean. To test this type of chúng ta xác định trung bình của chuỗi thời
stationaritv we have to compute and to compare gian có tĩnh hay không. Để kiểm tra tính
the partial means (defined on two disjoint chất tĩnh loại này, chúng ta phải tính toán và
intervals) of each of the three time-series. so sánh các trung bình từng phần (đƣợc xác
When both partial means corresponding to the định trên hai khoảng rời nhau) của một
same time-series has the same value we can trong ba chuỗi thời gian. Khi cả hai trung
decide that the considered series is stationary in bình toàn phần tƣơng ứng với cùng một
mean. The third category of tests is dedicated to chuỗi thời gian có cùng giá trị chúng ta có
the wide sense stationaritv. The first form of thể khẳng định rằng chuỗi đang xét có trung
this category of tests uses the ACFs of the three bình tĩnh. Phƣơng pháp kiểm tra thứ ba
sequences. These correlations are represented đƣợc áp dụng cho tính chất tĩnh theo nghĩa
in Figure 3,16. rộng. Phƣơng pháp kiểm tra thứ nhất sử
dụng các ACF của ba chuỗi. Các tƣơng
quan này đƣợc biểu diễn trong hình 3.16,
x q 12 Correlation of the sequence xq 12 Tƣơng quan của phép gần đúng chuỗi
approximation Tƣơng quan của sai phân bậc nhất
Correlation of the first difference
Correlation of the second difference Tƣơng quan của sai phân bậc hai
Figure 3,16: The autocorrelations of the three
Hình 3.16: Sự tự tƣơng quan của ba phép
sequences approximaion (first line), their first
gần đúng chuỗi (đƣờng thứ nhất), sai phân
(second line) and second differences (third
bậc nhất (đƣờng thứ hai) và bậc hai (đƣờng
line).
thứ ba).
The correlation of a stationary sequence must Sự tƣơng quan của chuỗi tĩnh phải triệt tiêu
vanish after few samples. We can observe, sau vài mẫu. Qua phân tích hình 3.17, chuỗi
analyzing Figure 3,17, that the third sequence thứ ba (từ trên xuống dƣới) có tốc độ giảm
(from up to bottom) has the higher decreasing cao hơn. Nó có một đỉnh ở giữa. Các giá trị
speed. It has a peak in its middle. The sample mẫu giảm nhanh ở bên trái và bên phải của
values decreases rapidly at the left and the right đỉnh này gần tiến tới không. Quá trình suy
of this pick becoming close to zero. This giảm này xảy ra hầu nhƣ nhanh hơn sự giảm
decreasing is most rapidly than the tƣơng ứng xuất hiện ở đồ thị giữa của hình
corresponding decreasing observed in the 3.16 hoặc trong đồ thị bên trên. Loại phép
middle plot from Figure 3.16 or in the up plot. kiểm tra thứ hai sử dụng các PAC của ba
The second form of this category of tests uses chuỗi này. Các hàm này đƣợc biểu diễn
the PACs of the three sequences. These trong hình 3.17. Chúng cũng hữu dụng
functions are represented in Figure 3.17. They trong việc ƣớc lƣợng các bậc p và q.
are also useful for the estimation of orders p
and q.
Figure 3.17: The partial correlations of the Hình 3.17: Các tƣơng quan từng phần của
three sequences approximation (first line), their ba gần đúng chuỗi (đƣờng thứ nhất), sai
first (second line) and second differences (third phân bậc nhất (đƣờng thứ hai) và sai phân
line). bậc hai (đƣờng thứ ba).
Analyzing Figure 3.17, we obtain the same
conclusion as in the case of Figure 3.16, Từ việc phân tích hình 3.17, chúng ta thu
namely that the sequence obtained by đƣợc kết luận tƣơng tự nhƣ hình 3.16, cụ thể
computing the second difference of the là chuỗi thu đƣợc bằng cách tính sai phân
sequence of approximations is more stationary bậc hai của chuỗi các gần đúng tĩnh hơn
than the sequence obtained by computing the chuỗi thu đƣợc bằng cách tính toán sai phân
first difference of approximations or that the bậc nhất của các gần đúng hoặc chính các
sequence of approximations itself. Finally, we chuỗi gần đúng. Cuối cùng, chúng tôi đề
propose a last functional test to appreciate xuất một thử nghiệm chức năng cuối cùng
which of the three time series is stationary. The để đánh giá chuỗi nào trong ba chuỗi có tính
idea of this test is to verify the repeatability of chất tĩnh. Ý tƣởng của phƣơng pháp kiểm
the Box-Jenkins procedure. We will present in tra này là kiểm tra sự lặp lại của quy trình
the following the implementation of this test in tục Box-Jenkins. Trong phần sau, chúng tôi
parallel with the presentation of the sẽ trình bày cách thực hiện phép thử nghiệm
implementation in Matlab® of the Box-Jenkins này song song với trình bày việc thực hiện
methodology In fact, in [BJR94] is devised to phƣơng pháp Box-Jenkins trong Matlab ®.
apply the Box-Jenkins methodology two times. Trong thực tế, trong [BJR94], các tác giả đã
First is established an initial model that is áp dụng phƣơng pháp Box-Jenkins hai lần.
optimized in the second run. To initialize the Lần đầu là thiết lập mô hình ban đầu đƣợc
Matlab® Box-Jenkins methodology (the tối ƣu hóa trong lần chạy thứ hai. Để khởi
function bj.m) some information is required: tạo phƣơng pháp Matlab ® Box-Jenkins
the data to be modeled (one of the three (hàm bj.m) chúng ta cần một số thông tin
sequences: the approximation c6, its first nhƣ: các dữ liệu đƣợc mô hình hóa (một
difference or its second difference in our case) trong ba chuỗi: xấp xỉ c6, sai phân bậc nhất
and the initialization of the model (the values p và sai phân bậc hai của nó trong trƣờng hợp
and q and the initial coefficients 0 of order p của chúng ta) và khởi tạo mô hình (các giá
and 9 of order q). The results of the function trị p và q và các hệ số ban đầu 0 bậc p và 9
bj.m are: the optimal values of coefficients 9 bậc q). Các kết quả của hàm bj.m là: các giá
and 0 (which permit the mathematical trị tối ƣu của các hệ số 9 và 0 (cho phép mô
description of the model), the degree in which tả mô hình về mặt toán học), bậc mà mô
the model fits the data (it must be as small as hình khớp dữ liệu (nó phải càng nhỏ càng
possible) and the value of FPE which must be tốt) và giá trị của FPE cũng cần phải có
as small as possible. The orders p and q of the càng nhỏ càng tốt. Các bậc p và q của đa
polynomials 0 and 9 can be identified based on thức 0 và 9 có thể đƣợc xác định dựa trên
of their coefficients but the value of the các hệ số của chúng nhƣng giá trị của tham
parameter d from the ARIMA model can not be số d từ mô hình ARIMA không thể đƣợc
identified using the function bj.m. For this xác định bằng cách sử dụng hàm bj.m. Vì lý
reason it is identified on the basis of stationarity do này, nó đƣợc xác định trên cơ sở các
tests. We have applied five times the same phép kiểm tra tĩnh. Chúng tôi đã áp dụng
Box-Jenkins methodology to each of the three năm lần cùng một phƣơng pháp Box-
sequences using the same initialization model Jenkins cho một trong ba chuỗi sử dụng
and we have appreciated the repeatability of cùng một mô hình khởi tạo và chúng tôi đã
this procedure, comparing the individual results đánh giá sự lặp lại của quy trình này, so
obtained. The repeatability of the Box-Jenkins sánh từng kết quả thu đƣợc. Độ lặp lại của
methodology is very poor for the sequence of phƣơng pháp Box-Jenkins rất kém đối với
approximation c6, so it can be concluded that chuỗi gần đúng c6, vì vậy chúng ta có thể
this time-series is not stationary and that the kết luận rằng chuỗi thời gian này không tĩnh
stationaritv of its first derivative must be tested. và cần phải kiểm tra tính chất tĩnh của đạo
Applying the same test to the first difference of hàm bậc nhất. Áp dụng cùng một phép kiểm
the approximation, c6, we have obtained that tra cho sai phân bậc nhất của gần đúng, c6,
the repeatability of the Box-Jenkins chúng ta thấy rằng tính lặp lại của phƣơng
methodology is very good for this sequence, so pháp Box-Jenkins rất tốt đối với chuỗi này,
it can be concluded that this time-series is vì vậy chúng ta có thể kết luận rằng chuỗi
stationary. So, for the time-series considered in thời gian này là tĩnh. Vì vậy, đối với chuỗi
this example, d = 1, as it was indicated by the thời gian đƣợc xét trong ví dụ này, d = 1,
other stationaritv tests previously presented as nhƣ đã đƣợc chỉ ra qua các phép kiểm tra
well. We have obtained the results presented in tĩnh trƣớc đây. Chúng tôi đã thu đƣợc
Table 3,1, những kết quả nhƣ trong bảng 3.1.
Run index Initial model fit Final model fit
Chỉ số chạy Khớp mô hình ban đầu Khớp
mô hình cuối cùng
Table 3,1: Results obtained running five times Bảng 3.1: Các kết quả thu đƣợc khi chạy
the Box-Jenkins methodology for the first năm lần phƣơng pháp Box-Jenkins cho sai
difference of the approximation c6. phân bậc nhất của xấp xỉ c6.
The results corresponding to the first line of the Các kết quả tƣơng ứng với dòng đầu tiên
Table 3,1 are represented in Figure 3,18 and của Bảng 3,1 đƣợc biểu diễn trong hình 3,18
those corresponding to the last line are và các kết quả tƣơng ứng với dòng cuối
represented in Figure 3,19, cùng đƣợc biểu diễn trong hình 3.19,
In both Figure 3,18 and Figure 3,19 the original Trong cả hai hình 3,18 và 3,19, tín hiệu ban
signal is represented in black, the output of the đầu đƣợc biểu diễn bằng màu đen, đầu ra
initial model is represented in green and the của tín hiệu ban đầu đƣợc biểu diễn bằng
output of the final model is represented in blue. màu xanh lam và đầu ra của mô hình cuối
Applying the same test to the second difference cùng đƣợc biểu diễn bằng màu xanh lục. Áp
of the approximation c6 we have obtained dụng cùng một phép kiểm tra cho sai phân
results (which are not presented here for seek of bậc hai của gần đúng c6 chúng ta thu đƣợc
concision) proving that the repeatability of các kết quả (không đƣợc trình bày ở đây để
those results is inferior to the repeatability of bài viết đơn giản) cho thấy rằng độ lặp lại
the results obtained for the previous time series. của các kết quả đó kém hơn so với các kết
So, in the following we will use the sequence quả thu đƣợc trong chuỗi thời gian trƣớc đó.
formed by the first difference of the Vì vậy, trong phần sau, chúng ta sẽ sử dụng
approximation c6 chuỗi đƣợc hình thành bởi sai phân bậc nhất
của gần đúng c6.
The initial model can be selected using
Matlab® function idpoly, and specifying the Mô hình ban đầu có thể đƣợc lựa chọn sử
polynomials B, C, D and F from the following dụng hàm Matlab ®, và xác định các đa
equation: thức B, C, D và F theo công thức sau:
Applying once again the Box-Jenkins Chúng ta lại áp dụng phƣơng pháp Box-
methodology, the final model (represented in Jenkins một lần nữa để thu đƣợc mô hình
Figure 3,20 for the current example) is cuối cùng (đƣợc biểu diễn trong hình 3,20
obtained. In Figure 3,20 is presented a cho ví dụ hiện tại).Trong hình 3,20, chúng
comparison of the first difference of the tôi trình bày sai phân bậc nhất của gần đúng
approximation c6 with the simulation in Matlab c6 với mô phỏng trong matlab của Mô hình
of its ARIMA model given by the Box-Jenkins ARIMA, mô hình đƣợc hình thành từ
methodology. phƣơng pháp Box-Jenkins.
Figure 3.18: Results obtained applying first Hình 3.18: Kết quả thu đƣợc khi áp dụng
time the Box-Jenkins methodology on the first lần đầu tiên phƣơng pháp Box-Jenkins trên
difference of the approximation c6. sai phân bậc nhất của xấp xỉ c6.
Figure 3.19: Results obtained applying fifth
Hình 3.19: Kết quả thu đƣợc áp dụng lần
time the Box-Jenkins methodology on the first
thứ năm phƣơng pháp Box-Jenkins trên sai
difference of the approximation c6.
phân bậc nhất của xấp xỉ c6.
Figure 3,20: First difference of traffic overall Hình 3,20: Sai phân bậc nhất của khuynh
tendency before and after ARIMA modeling. hƣớng chung của lƣu lƣợng tin trƣớc và sau
model is presented in Figure 3,21, quá trình mô hình hóa ARIMA.
In this figure we represented the original time
series with red, while the simulated model is Trong hình này, chúng tôi biểu diễn chuỗi
represented in blue. A good match of the thời gian ban đầu bằng màu đỏ, trong khi
original time series with the model can be các mô hình mô phỏng đƣợc biểu diễn bằng
observed analyzing this figure. màu xanh. Qua phân tích hình này, chúng ta
có thể thấy đƣợc sự khớp rất tốt của chuỗi
thời gian ban đầu với mô hình.
The models computed for the long term trend
of all downlink traces from the database are Các mô hình đƣợc tính toán cho xu hƣớng
used for the next phase of our data mining dài hạn của tất cả các vết downlink từ cơ sở
project which consists in evaluation. These dữ liệu đƣợc sử dụng cho giai đoạn tiếp theo
models indicate that the first difference of those của dự án khai thác dữ liệu của chúng tôi kể
time-series is consistent with a simple MA cả việc đánh giá. Các mô hình này cho thấy
model (p = 0) with one or two terms (q=1 and sai phân bậc nhất của những chuỗi thời gian
d=1 or q=2 and d=1) plus a constant value pot, này phù hợp với mô hình MA đơn giản (p =
This conclusion ends the modeling phase for 0) với một hoặc hai số hạng (q = 1 và d = 1
the feature long-range dependence. hoặc q = 2, d = 1) cộng một giá trị hằng
số…., kết luận này kết thúc giai đoạn mô
hình hóa đặc tính phụ thuộc thời gian dài.
A similar modeling phase is implemented for Một giai đoạn mô hình hóa tƣơng tự đƣợc
the other feature of the WiMAX downlink thực hiện cho một đặc tính khác của lƣu
traffic, the variability. As the approximation lƣợng tin downlink WiMAX, đó là tính thay
coefficients c6 are used for the modeling of đổi.Vì các hệ số xấp xỉ c6 đƣợc sử dụng để
traffic long-range dependence, the detail mô hình hóa sự phụ thuộc thời gian dài của
coefficients dt3 are used to appreciate the lƣu lƣợng tin, các hệ số chi tiết dt3 đƣợc sử
variability of the traffic. They are treated dụng để đánh giá sự thay đổi lƣu lƣợng tin.
following a similar procedure based on the Chúng đƣợc xét theo một quy trình tƣơng tự
Box-Jenkins methodology A comparison of the dựa trên phƣơng pháp Box-Jenkins. So sánh
original time series (represented in red) with chuỗi thời gian ban đầu (đƣợc biểu diễn
the data obtained simulating the model obtained bằng màu đỏ) với các dữ liệu thu đƣợc mô
applying two times the Box-Jenkins phỏng mô hình thu đƣợc áp dụng hai lần
methodology (represented in blue) in the case phƣơng pháp Box-Jenkins (biểu diễn bằng
of the traffic’s variability is shown in Figure màu xanh) trong trƣờng hợp sự biến đổi lƣu
3.22. A good match of the original time series lƣợng tin đƣợc biểu diễn trong hình 3.22.
with the model is observed in this case as well. Trong trƣờng hợp này, chúng ta cũng thấy
chuỗi thời gian ban đầu khớp với mô hình
rất tốt.
Figure 3.22: Modeling the variability of the Hình 3.22: Mô hình hóa sự thay đổi lƣu
traffic. lƣợng tin.
Applying the Box-Jenkins methodology on the
Áp dụng phƣơng pháp Box-Jenkins trên các
deviation measurements (that reflect the
phép đo độ lệch (phản ánh sự thay đổi của
variability of the traffic), we found that the
deviation dt3 can be expressed with simple MA lƣu lƣợng tin), chúng ta thấy rằng độ lệch
(p = 0) processes after one differencing dt3 có thể đƣợc biểu diễn với các quá trình
operation. This conclusion ends the modeling MA đơn giản (p = 0) sau một phép toán sai
part of our data mining project. phân. Kết luận này kết thúc phần mô hình
hóa trong dự án khai thác dữ liệu của chúng
tôi.
We have applied the forecasting algorithm to Chúng tôi đã áp dụng thuật toán dự báo cho
all the downlink traces, from the data base and tất cả các vết downlink, từ các cơ sở dữ liệu
we have obtained statistically significant và chúng tôi đã thu đƣợc các mô hình
ARIMA models for each traffic overall ARIMA có ý nghĩa thống kê cho từng xu
tendency and variability. We have identified hƣớng tổng thể và biến đổi của lƣu lƣợng
the model parameters (p and q) using MLE, tin. Chúng tôi đã xác định các tham số mô
The best model was chosen as the one that hình (p và q) sử dụng MLE. Mô hình tốt
provides the smallest AICC, BIC and FPE nhất đƣợc chọn là mô hình cho ra các tham
measures, while offering the smallest mean số AICC, BIC và FPE nhỏ nhất, và có sai số
square prediction error for a number of weeks dự đoán bình phƣơng trung bình nhỏ nhất
ahead. trong một số tuần trƣớc.
ĐOÀN PHƢƠNG THÙY BẮT ĐẦU
3.2.6 Triển khai
3.2.6 Deployment
The final stage, deployment, involves the Giai đoạn cuối cùng, triển khai, liên quan
application of the model to new data in order to đến việc áp dụng mô hình cho các dữ liệu
generate predictions. The moment when the mới để đƣa ra các dự đoán. Thời điểm xảy
saturation of the BS takes place can be ra hiện tƣợng bão hoà của BS có thể đƣợc
predicted comparing the trajectory of the tiên đoán dựa trên việc so sánh quỹ đạo của
overall traffic forecast with the BS’s saturation các dự báo lƣu lƣợng tổng thể với ngƣỡng
threshold as shown in Figure 3,23. bão hòa của BS nhƣ trong hình 3.23.
The need for one differencing operation at lag Sự cần thiết của một phép toán sai phân tại
1, and the existence of term Mot across the độ trễ 1, và sự tồn tại của số hạng Mot trên
model indicate that the long-term trend of the mô hình cho thấy khuynh hƣớng dài hạn của
downlink WiMAX traffic is a simple lƣu lƣợng WiMAX downlink là một phƣơng
exponential smoothing with growth. The pháp làm trơn bằng hàm mũ đơn giản theo
trajectory for the long-term forecasts will be a (với) sự tăng trƣởng. Quỹ đạo của các dự
sloping line, whose slope is equal to ^ot. báo dài hạn sẽ là một đƣờng dốc, có hệ số
Similar conclusion can be formulated for the gốc bằng ….. Chúng ta cũng có thể kết luận
variability of the downlink WiMAX traffic. tƣơng tự cho sự biến đổi lƣu lƣợng tin
The single difference between the long-term WiMAX downlink. Sự khác biệt duy nhất
trend and the variability is that the slope of the giữa khuynh hƣớng dài hạn và sự biến đổi
variability is much smaller than the slope of the lƣu lƣợng tin là hệ số góc của đƣờng biểu
long-term trend. The trajectory for the diễn sự biến đổi lƣu lƣợng tin nhỏ hơn
variability forecast is a sloping line as well but nhiều so với hệ số góc của khuynh hƣớng
it has a much smaller slope. The sum of these dài hạn. Quỹ đạo của các dự báo biến thiên
sloping lines is a third line, parallel with the cũng là một đƣờng dốc, nhƣng nó có độ dốc
trajectory of the long term forecast, which nhỏ hơn nhiều. Tổng của các đƣờng dốc này
represents the trajectory of the overall forecast. là một đƣờng thứ ba, song song với quỹ đạo
Hence, the risk of saturation of a BS is direct của các dự báo dài hạn, đại diện cho quỹ
proportional with the slope of its overall đạo của các dự báo tổng thể. Do đó, nguy cơ
tendency. Given the estimates of Mot across all bão hòa của một BS tỷ lệ thuận với hệ số
models, corresponding to all BSs, we can góc của khuynh hƣớng tổng thể của nó. Với
conclude based on the positive values of those ƣớc tính Mot cho trƣớc trên tất cả các mô
slopes that all traces exhibit upward trends, but hình, tƣơng ứng với tất cả các BS, chúng ta
grow at different rates. có thể kết luận dựa trên các giá trị dƣơng
của các hệ số góc mà tất cả các vết thể hiện
xu thế tăng, nhƣng tăng trƣởng với các tốc
độ khác nhau.
In Table 3,2 is presented a classification of BSs Bảng 3.2 trình bày một cách phân loại các
in terms of the saturation risk. For BS50 the BS dựa trên nguy cơ bão hòa. Đối với
value of Mot was estimated as equal to BS50, giá trị của Mot ƣớc tính bằng
2.061016 which is much higher than all the 2,061016, cao hơn nhiều so với tất cả các hệ
other slopes, so we decided to exclude it from số khác, vì vậy chúng tôi quyết định loại bỏ
the classification. nó trong quá trình phân loại.
Table 3,2: BSs risk of saturation. Bảng 3.2: Nguy cơ bão hòa của các BS
BSs showed on the first column in Table 3,2 Các BS trong cột 1 của Bảng 3.2 có các giá
have high values of Mat- This means that these trị Mat cao hơn. Điều đó có nghĩa là các BS
BSs have a higher risk of saturation than the này có nguy cơ bị bão hòa cao hơn các BS
other BSs, The BSs with higher risk of khác. Những BS có nguy cơ bão hòa cao
saturation are the following: BS63, BS60, BS3, hơn bao gồm: BS63, BS60, BS3, BS49,
BS49, BS61. BS61.
We cannot come up with a single WiMAX Chúng tôi không thể đƣa ra một mô hình dự
network-wide forecasting model for the báo mạng WiMAX diện rộng duy nhất cho
aggregate demand. Different parts of the tổng cầu.
network grow at different rates (long-term Mỗi phần khác nhau của mạng phát triển
trend), and experience different types of với các tốc độ khác nhau (khuynh hƣớng dài
variation (deviation from the long-term trend). hạn), và có những kiểu biến thiên khác nhau
(sai lệch so với khuynh hƣớng dài hạn).
Our methodology extracts those trends from Phƣơng pháp của chúng tôi trích xuất những
historical measurements and can identify those khuynh hƣớng này từ các phép đo trƣớc đây
BSs in the network that exhibit higher growth và có thể xác định các BS trong mạng thể
rates and thus may require additional capacity hiện tốc độ tăng trƣởng cao hơn và do đó
in the future. cần thêm dung lƣợng trong tƣơng lai.
Our technique is capable, based on MRA and Dựa trên mô hình MRA và ARIMA, kỹ
ARIMA modeling, of isolating the overall long thuật của chúng tôi có khả năng cô lập
term trend and identifying those components khuynh hƣớng dài hạn tổng thể và xác định
that significantly contribute to its variability, những thành phần đóng góp đáng kể vào
Predictions based on approximations of those tính biến thiên của nó. Dự đoán dựa trên
components provide accurate estimates with a những giá trị gần đúng của các thành phần
minimal computational overhead. đó đƣa ra các ƣớc lƣợng chính xác bằng số
phép tính tối thiểu (chi phí tính toán nhỏ
nhất).
3.3 Selection of Mother Wavelets 3.3 Lựa chọn các hàm wavelet mẹ
Another important goal in our work is to
Một mục tiêu quan trọng khác trong công
compare the influence of different wavelets
trình của chúng tôi là so sánh mức ảnh
families on the prediction accuracy. We
hƣởng của họ Wavelet khác nhau đối với
propose a comparison between the following
tính chính xác của các dự đoán. Chúng tôi
wavelets families:
đề xuất một so sánh giữa các họ Wavelet
sau đây:
• Daubechies: dBi, DB2, DB3, DB4, DB5.
• Daubechies: dbi, db2, db3, db4, db5.
• Coiflets: coi/i, coi/2, coifs, coif4, coif5. • Coiflets: coi / i, coi / 2, coifs, coif4, coif5.
• Svmlets: sym2, sym3, sym4.
• Biorthogonal: biori.i; bior2.2, bior3.i; • Svmlets: sym2, sym3, sym4.
bior^A, bior5.5. • Song trực giao: biori.i; bior2.2, bior3.i;
• Reverse Biorthogonal: rbioi.i; rbio2.2, bior ^ A, bior5.5.
rbio3.3, rbio4.4, rbio5.5.
• Song trực giao nghịch đảo: rbioi.i; rbio2.2,
rbio3.3, rbio4.4, rbio5.5.
These families of mother wavelets were already
Các họ hàm Wavelet mẹ này đã đƣợc giới
introduced in Chapter 1 and their particularities
thiệu trong chƣơng 1 và các đặc tính của
as: length of support, number of vanishing
chúng bao gồm: chiều dài của tập xác định,
moments, time, frequency and time- frequency
số moment triệt tiêu, thời gian, tần số và
localizations. There are some features of the
tính cục bộ hóa thời gian – tần số. Một số
forecasting algorithm which can be optimized
tính năng của các thuật toán dự báo có thể
by the mother wavelets selection such as: the
đƣợc tối ƣu hóa qua việc lựa chọn các hàm
results of the MRA, the values of the weights ft
Wavelet mẹ nhƣ: các kết quả của MRA, các
and 7 given bv the ANOVA procedure or the
giá trị trọng số ft và 7 do quy trình ANOVA
accuracy of the traffic prediction.
đƣa ra hoặc tính chính xác của các dự báo
lƣu lƣợng.
We have applied the forecasting algorithm Chúng tôi đã lựa chọn mỗi Wavelet mẹ đã
choosing each mother wavelets already đƣợc đề cập, áp dụng thuật toán dự báo cho
mentioned and for each trace corresponding to mỗi vết tƣơng ứng với mỗi BS từ cơ sở dữ
each BS from the database. In Figure 3,24 are liệu. Hình 3,24 hiển thị các bƣớc chính
shown the main steps followed in our work. trong công trình của chúng tôi.
We have divided each data sequence into two Chúng tôi đã chia mỗi chuỗi dữ liệu thành
parts, each corresponding to a specific interval hai phần, mỗi phần tƣơng ứng với một
of time. Data from the first interval (of seven khoảng thời gian cụ thể. Dữ liệu từ khoảng
weeks) were considered as historical and were thời gian đầu tiên (trong bảy tuần) đƣợc coi
used for prediction, while data from the second là lịch sử và đã đƣợc sử dụng để dự đoán,
interval (the last week) were used to evaluate trong khi đó dữ liệu từ khoảng thứ hai (tuần
the quality of prediction. The results obtained trƣớc) đƣợc sử dụng để đánh giá chất lƣợng
are presented in Table 3.3. dự báo. Các kết quả thu đƣợc thể hiện trong
Bảng 3.3.
Table 3.3: Comparison between wavelets, Bảng 3.3: So sánh giữa các Wavelet, lƣu
WiMAX traffic. lƣợng WiMAX.
These results consist in values of the three Những kết quả này bao gồm các giá trị của
quality measurements, SMAPE, MAPE and ba phép đo định lƣợng SMAPE, MAPE và
MAE. These measurements were computed for MAE. Các phép đo này đƣợc tính toán cho
all BSs, using each of MWs mentioned. In tất cả các BS, sử dụng từng MW đã đề cập.
Table 3.3 are shown the mean values obtained Bảng 3.3 trình bày giá trị trung bình thu
for all the BSs. đƣợc cho tất cả các BS.
SMAPE, MAPE and MAE, are calculated SMAPE, MAPE và MAE, đƣợc tính toán
between the actual and the predicted tendency, giữa khuynh hƣớng thực tế và dự đoán, bởi
because for linear models the trajectory of the vì đối với các mô hình tuyến tính quỹ đạo
forecasts is represented through sloping line của các dự báo đƣợc thể hiện bằng đƣờng
which represents the weekly increase. dốc đại diện cho sự gia tăng hàng tuần.
According to the results presented in Table 3.3., Theo kết quả đƣợc trình bày trong bảng
the 1st order Daubechies wavelet, db1, which is 3.3., wavelet Daubechies bậc 1, db1,
the simplest of the Daubechies family, gives the wavelet đơn giản nhất của họ Daubechies,
best prediction performance. So, in the case of có khả năng đƣa ra dự đoán tốt nhất. Vì vậy,
communication traffic time series, the time trong trƣờng hợp chuỗi thời gian của lƣu
localization is more important than the lƣợng truyền thông, tính cục bộ hóa thời
frequency localization. Good forecasting gian quan trọng hơn tính cục bộ hóa tần số.
accuracy was obtained using mother wavelets Độ chính xác dự báo tốt thu đƣợc là nhờ
with good time-frequency localization as well, việc sử dụng Wavelet mẹ tốt cùng với cục
which have a reduced number of vanishing bộ hóa thời gian tần số, giúp hạn chế số
moments, like rbio1.1. lƣợng moment triệt tiêu, giống nhƣ rbio1.1.
3.4 Extension to Financial Domain 3.4 Mở rộng sang lĩnh vực tài chính
The prediction method already described can be
Các phƣơng pháp dự báo đã đƣợc mô tả có
applied not only in communications domain but
thể đƣợc áp dụng không chỉ trong phạm vi
also in finance.
viễn thông mà còn có thể đƣợc áp dụng
trong lĩnh vực tài chính.
The financial time-series analyzed in this Các chuỗi thời gian tài chính đƣợc phân tích
section is composed by numerical values trong phần này đƣợc thể hiện bằng các giá
representing the total number of EUR-USD trị số đại diện cho tổng số lần trao đổi tiền
currency exchanges realized in a time interval EUR-USD đƣợc thực hiện trong một
of fifteen weeks. The values are recorded every khoảng thời gian mƣời lăm tuần. Cứ 15 phút
15 minutes. The overall tendency of this time- thì các giá trị đƣợc ghi lại một lần. Các
series was estimated on the basis of a MRA, khuynh hƣớng tổng thể của chuỗi thời gian
followed by an ARIMA modeling of the này đƣợc ƣớc tính trên cơ sở một MRA,
sequence of approximation coefficients. We theo sau là một mô hình ARIMA của chuỗi
have divided the data sequence into two parts: các hệ số xấp xỉ. Chúng tôi đã chia các
training part of fourteen weeks and a testing chuỗi dữ liệu thành hai phần: phần đào tạo
part of one week. We followed the same steps mƣời bốn tuần và phần thử nghiệm một
shown in Figure 3,24 as in the ease of WiMAX tuần. Chúng tôi thực hiện các bƣớc nhƣ đã
traffic. The results we obtained are presented in trình bày trong hình 3,24 trong trƣờng hợp
Table 3,4, lƣu lƣợng tin WiMAX. Các kết quả đƣợc
trình bày trong Bảng 3.4.
currency exchange: cũng có nghĩa là ―tỷ giá
hối đoái
Table 3,4: Comparison between wavelets on Bảng 3.4: So sánh giữa các Wavelet trên dữ
financial data. liệu tài chính.
The best forecasting performance is obtained Hiệu suất dự báo tốt nhất thu đƣợc bằng
using the mother wavelets d^(Haar) and cách sử dụng các hàm Wavelet mẹ d ^
bior3,1, which have good time localization. (Haar) và bior3, 1, có tính cục bộ hóa thời
gian tốt.
Các dữ liệu tài chính (các tỷ giá hối đoái
The financial data (the EUE-USD currency
EUE-USD) thể hiện một khuynh hƣớng hầu
exchanges) exhibit an almost constant
nhƣ không đổi, trong khi đó lƣu lƣợng tin
tendency, while WiMAX traffic presents a
WiMAX thể hiện tính biến thiên mạnh và
strong variability and its tendency (long term
khuynh hƣớng của nó (khuynh hƣớng dài
trend) represents a sloping line. However, our
hạn) biểu diễn bằng một đƣờng dốc. Tuy
algorithm is applicable to both types of data
nhiên, thuật toán của chúng tôi có thể đƣợc
and the obtained predictions are accurate.
áp dụng cho cả hai loại dữ liệu và những dự
đoán thu đƣợc là chính xác.
3.5 Kết luận
3.5 Conclusions
In this chapter, we have proved by extensive Trong chƣơng này, bằng các mô phỏng trên
simulations that the traffic forecasting diện rộng, chúng tôi đã chứng minh rằng
methodology proposed in [PTZD03] can be các phƣơng pháp dự báo lƣu lƣơng đƣợc đề
adapted in the case of WiMAX traffic. We have xuất trong [PTZD03] có thể đƣợc điều
adapted the methodology proposed in chỉnh trong trƣờng hợp lƣu lƣợng WiMAX.
[PTZD03] to our case, by taking into Chúng tôi đã điều chỉnh phƣơng pháp đƣợc
consideration the particularities of wireless đề xuất trong [PTZD03] cho trƣờng hợp của
networks as their ad-hoe nature or the non- chúng tôi, bằng cách tính đến các đặc tính
stationarv behavior of their traffic. To do this của mạng không dây, chẳng hạn tính chất
adaptation we have modified the number of ad-hoc của chúng hoặc tính không tĩnh của
detail sequences retained after the ANOVA lƣu lƣợng tin của chúng. Để có thể điều
analysis, performed using the MEA and chỉnh nhƣ vậy, chúng tôi đã thay đổi số
required for the estimation of the variability of lƣợng các chuỗi chi tiết đƣợc giữ lại sau
the traffic, from one (number used in phép phân tích ANOVA, đƣợc thực hiện
[PTZD03]) to two. We have proposed a bằng cách sử dụng MEA và đòi hỏi ƣớc tính
methodology to select the two weights sự biến đổi lƣu lƣợng tin, từ một (số đƣợc
required, ft and 7 and we have added to the sử dụng trong [PTZD03]) đến hai. Chúng
methodology proposed in [PTZD03] a new test tôi đã đề xuất một phƣơng pháp để lựa chọn
of stationaritv (original in our knowledge) hai trọng lƣợng cần thiết, ft và 7 và chúng
based on the reiteration of the Box-Jenkins tôi đã đƣa vào phƣơng pháp đƣợc đề xuất
methodology. trong [PTZD03] một phép kiểm tra tĩnh mới
(đây là cuộc kiểm tra đầu tiên theo hiểu biết
của chúng tôi) dựa trên sự lặp lại của
phƣơng pháp Box-Jenkins.
Our technique is capable of isolating the overall Kỹ thuật của chúng tôi có khả năng cô lập
long term trend and identifying those khuynh hƣớng dài hạn và xác định những
components that significantly contribute to its thành phần đóng góp đáng kể vào sự biến
variability. đổi của nó.
The statistical models for the overall tendency Chúng tôi tìm đƣợc các mô hình thống kê
and for the variability of the traffic can be cho khuynh hƣớng tổng thể và sự thay đổi
found neglecting some resolutions from the lƣu lƣợng tin nếu bỏ qua một số phân giải
corresponding MEA, Selecting only của MEA tƣơng ứng. Chỉ lựa chọn hệ số
approximation coefficients at the sixth xấp xỉ ở mức phân tích thứ sáu của SWT,
decomposition level of the SWT, c6, we can c6, chúng ta có thể dự đoán khuynh hƣớng
predict the overall tendency of WiMAX traffic. tổng thể của lƣu lƣợng WiMAX. Do đó,
Hence, the overall tendency of the traffic is a khuynh hƣớng tổng thể của lƣu lƣợng là
very low frequency signal, requiring mother một tín hiệu tần số rất thấp, đòi hỏi các hàm
wavelets with good frequency localization Wavelet mẹ với tính cục bộ hóa tần số tốt
(which have a big number of vanishing (có một số lƣợng lớn moment triệt tiêu). Sự
moments). The traffic variability can be biến thiên lƣu lƣợng có thể đƣợc dự đoán
predicted by selecting only detail coefficients at bằng cách chỉ chọn các hệ số chi tiết ở mức
the third and fourth decomposition levels, d3 phân tích 3 và 4, d3 d4. Do đó, tính biến
and d4. Hence, the traffic’s variability is a thiên của lƣu lƣợng là một tín hiệu tần số
relative high frequency signal, requiring mother tƣơng đối cao, đòi hỏi wavelet mẹ có tính
wavelets with good time localization (as dbi ox cục bộ hóa thời gian tốt (nhƣ dbi ox rbioi.1,
rbioi.1, which have a reduced number of có số lƣợng moment triệt tiêu nhỏ).
vanishing moments).
In consequence, the proposed forecasting Kết quả là, các phƣơng pháp dự báo đƣợc
methodology requires mother wavelets with đề xuất đòi hỏi hàm Wavelet mẹ có cả tính
both time and frequency good localization. So, cục bộ hóa thời gian và tần số tốt. Vì vậy,
we consider that the best results will be chúng tôi cho rằng chúng ta có thể đạt đƣợc
obtained using mother wavelets with a good kết quả tốt nhất nếu sử dụng Wavelet mẹ
time-frequencv localization, which corresponds với tính cục bộ hóa thời gian-tần số tốt,
to a reduced number of vanishing moments. tƣơng ứng với số moment triệt tiêu giảm.
Considering that the prediction accuracy of the Lƣu ý rằng tính chính xác của dự báo về
traffic variability is more important than the tính biến thiên của lƣu lƣợng quan trọng
prediction accuracy of the traffic overall hơn so với độ chính xác dự báo khuynh
tendency, it results that time localization is hƣớng lƣu lƣợng tổng thể, kết quả là tính
more important than the frequency localization. cục bộ hóa thời gian quan trọng hơn cục bộ
So, the best mother wavelet seems to be the hóa tần số. Vì vậy, trong trƣờng hợp của
Haar wavelet (dbi) in our case. With the chúng tôi, các hàm wavelet mẹ tốt nhất
increase of the number of vanishing moments, dƣờng nhƣ chính là wavelet Haar (dBi). Với
the performance of the traffic’s prediction sự tăng số lƣợng moment triệt tiêu, hiệu suất
deteriorates. In [SMLI10], [RMBS10] and của các dự đoán lƣu lƣợng bị suy giảm.
[RSML10] we proposed an approach for Trong [SMLI10], [RMBS10] và [RSML10]
predicting traffic time series based on the chúng tôi đề xuất một phƣơng pháp để dự
association of the SWT with Artificial Neural đoán chuỗi thời gian lƣu lƣợng tin dựa trên
Networks (ANN). According to the results, we sự kết hợp của SWT với mạng nơron nhân
can conclude that ANN performs better then tạo (ANN). Từ kết quả, chúng ta có thể kết
the other forecasting techniques for small future luận rằng ANN hiệu quả hơn sau các kỹ
time intervals, several weeks at most. The thuật dự báo khác trong khoảng thời gian
superiority of short-term forecasting methods tƣơng lai ngắn, tối đa là vài tuần. Tính ƣu
based on ANNs can be explained by the higher việt các của phƣơng pháp dự báo ngắn hạn
computational complexity of these methods. dựa trên ANNs là do những phƣơng pháp
They require a supplementary training phase này có tính toán phức tạp hơn. Chúng đòi
and are applied to all wavelet coefficients (di hỏi một giai đoạn đào tạo bổ sung và đƣợc
— d6), without computing weekly averages. áp dụng cho tất cả các hệ số wavelet (di -
But, if we are interested in the tendency of the D6), mà không tính trung bình hàng tuần.
traffic, meaning prediction for several months, Nhƣng, nếu chúng ta quan tâm đến các
than pure statistical models are the ones that khuynh hƣớng của lƣu lƣợng tin, có nghĩa là
should be taken into consideration. dự đoán trong vài tháng, thì các mô hình
thống kê thuần túy cần phải đƣợc xem xét.
The non-stationaritv of the traces from the Tính không ổn định của các vết từ cơ sở dữ
database was highlighted. It is explained by the liệu đã đƣợc nhấn mạnh. Nó đƣợc giải thích
non-constant overall tendency extracted from bởi các khuynh hƣớng tổng thể luôn thay
each trace. This behavior makes more difficult đổi đƣợc rút ra từ mỗi vết. Đặc tính này
the estimation of the Hurst parameter presented khiến cho việc ƣớc tính tham số Hurst trình
in the following chapter. bày trong chƣơng sau khó khăn hơn.
Chƣơng 4
Chapter 4 Khám phá tri thức trong lƣu lƣợng
Knowledge Discovery in WiMAX Traffic. WiMAX. Phân tích phụ thuộc thời gian dài
Long-range Dependence Analysis
Communication equipment generates and stores Thiết bị truyền thông tạo ra và lƣu trữ một
large amounts of data. In the last years the lƣợng lớn dữ liệu. Trong những năm qua,
topics of self-similaritv and LED in các chủ đề tự đồng dạng và LRD trong
communication networks has become a very mạng truyền thông đã trở thành một lĩnh
popular research domain [CB97], [UP02], vực nghiên cứu rất phổ biến [CB97],
[AV98], The analysis of real data challenged [UP02], [AV98], Việc phân tích dữ liệu
the engineers as well as the researchers, so thực tế đã đặt ra thách thức cho các kỹ sƣ
LED has become more and more used in data cũng nhƣ các nhà nghiên cứu, vì vậy LRD
analysis [OSOl], [KMF04], Eecent analysis of ngày càng đƣợc sử dụng nhiều hơn trong
traffic measurements from various phân tích dữ liệu [OSOl], [KMF04], phân
communication networks has revealed that the tích Eecent các phép đo lƣu lƣợng từ các
traffic is long-range dependent or fractal (self- mạng truyền thông khác nhau đã cho thấy
similar). These findings revolutionized the lƣu lƣợng có tính chất phụ thuộc thời gian
understanding of network traffic, giving an dài hoặc fractal (tự đồng dạng). Những phát
explanation of the difference which appears hiện này là một cuộc cách mạng đối với
between the theoretical estimated efficiency những hiểu biết về lƣu lƣợng mạng, đƣa ra
and the efficiency measured in practice, so một lời giải thích về sự khác biệt giữa hiệu
time-series analysis and modeling in terms of suất ƣớc tính lý thuyết và hiệu suất đo lƣờng
LED have become more and more used in data đƣợc trong thực tế, do đó phƣơng pháp phân
analysis. tích chuỗi thời gian và mô hình hóa theo
LRD ngày càng đƣợc sử dụng rộng rãi trong
phân tích dữ liệu.
Trong chƣơng này, chúng tôi đề xuất phân
In this chapter, we propose to analyze the
tích lƣu lƣợng downlink và uplink trong một
uplink and downlink traffic in a WiMAX
mạng WiMAX theo LRD, Mục tiêu là thu
network in terms of LED, The aim is to obtain
đƣợc những giá trị ƣớc lƣợng tham số H,
the estimated values of H parameter, for each
đối với mỗi vết uplink và downlink tƣơng
uplink and downlink trace corresponding to all
ứng với tất cả các BS tạo thành mạng đang
the BSs that compose the considered network.
đƣợc xem xét. Chúng tôi chứng minh rằng
We prove that some particularities of the
một số đặc thù của mạng có thể đƣợc thiết
network can be established analyzing these
lập giúp phân tích các giá trị này. Các quy
values, Eules for the optimization of the
tắc để tối ƣu hóa việc khai thác mạng có thể
network’s exploitation can be derived
đƣợc rút ra từ việc phân tích các tính chất
analyzing these particularities,
đặc thù này.
Aggregate traffic is made up of many Lƣu lƣợng toàn phần đƣợc tạo thành từ
connections which arrive randomly. Each nhiều kết nối ngẫu nhiên. Mỗi kết nối đƣợc
connection is characterized by its "size" đặc trƣng bởi "kích cỡ" của nó thể hiện cho
representing the number of packets and by the số lƣợng các gói tin và "tốc độ" của các gói
"rate" of transmitted packets. As showed in dữ liệu đƣợc truyền đi. Nhƣ đã trình bày
[CB97], the distributions of connections have trong [CB97], sự phân bố của các kết nối có
very long tails. đuôi rất dài (very long tails).
Một biến ngẫu nhiên X là heavy tailed
A random variable X is heavy tailed if for all a (nặng đuôi) nếu với mọi a> 0 nó thoả mãn:
> 0 it satisfies:
P(X > x)eax —— TO, x —— to. (4.1) P (X> x) eax - TO, x - để. 4.1.
In [Mis03] the authors show that LRD results
Trong [Mis03] các tác giả chỉ ra rằng LRD
by the aggregation of heavy-tailed data streams.
là kết quả của sự tập hợp của các dòng dữ
Another potential cause of LRD is given by the
liệu heavy-tailed (nặng đuôi).
feedback mechanisms in the Transmission
Control Protocol (TCP). Let’s consider the Một nguyên nhân tiềm năng của LRD đƣợc
transmission of a packet between a sender- đƣa ra bởi các cơ chế phản hồi trong Giao
receiver pair on a network. The data is sent thức điều khiển truyền dữ liệu (TCP).
usually according to a reliable transport Chúng ta hãy xét việc truyền tải một gói tin
protocol like TCP, The release of packets to the giữa một cặp thiết bị gửi-nhận trên mạng.
network is decided by the flow and congestion Dữ liệu thƣờng đƣợc gửi theo một giao thức
control mechanism. Using a Markov model to truyền tải đáng tin cậy nhƣ TCP, Việc phát
simulate the behavior of TCP traffic, the ra các gói tin vào mạng đƣợc quyết định bởi
authors of [GLMT05] concluded that the cơ chế điều khiển dòng và tắc nghẽn. Việc
multiple timescale nature of traffic generation, sử dụng một mô hình Markov để mô phỏng
coupled with transport protocol issues, make thay đổi của các lƣu lƣợng TCP, các tác giả
the appearance of LED-like behavior trong [GLMT05] kết luận rằng bản chất
inevitable, while in [VBOO] it is said that nhiều thang thời gian của quá trình tạo lƣu
"TCP congestion control creates self similar lƣợng, cùng với các vấn đề giao thức truyền,
traffic (...) showing both short-range and long- khiến cho sự xuất hiện của các đặc tính kiểu
range dependence depending on system LRD là không thể tránh khỏi, trong khi đó
parameters", trong [VBOO], ngƣời ta cho rằng "điều
khiển tắc nghẽn TCP tạo ra lƣu lƣợng tự
đồng dạng (...) thể hiện cả sự phụ thuộc thời
gian ngắn và phụ thuộc thời gian dài vào
các tham số hệ thống ",
LRD arises from network topology or routing LRD phát sinh từ tôpô mạng hoặc các thuật
algorithms as well [Cle04], If a BS is bad toán định tuyến [Cle04]. Nếu một BS bị sai
positioned into a wireless network, its traffic is vị trí trong một mạng không dây, lƣu lƣợng
more difficult than the traffic of the other BSs, của nó sẽ khó khăn hơn so với lƣu lƣợng
which are well positioned, and it can behave của các BS khác đúng vị trí, và nó có thể có
LRD. đặc tính kiểu LED,
Determining the origin of LRD remains an Xác định nguồn gốc của LRD vẫn còn là
important research area and it is essential to một lĩnh vực nghiên cứu quan trọng và cần
find out which is the real origin of LRD, The phải tìm ra đâu là nguồn gốc thực sự của
presence of LRD can be controlled only its LRD. Sự xuất hiện của LRD chỉ có thể đƣợc
origins are known, A possibility remains that it kiểm soát nếu chúng ta biết đƣợc nguồn gốc
is a mixture of some or all of the sources của nó. Cũng có thể nguồn gốc của nó là do
already mentioned. một số hoặc tất cả những nguồn đã đƣợc đề
cập.
The goal of this chapter is to analyze the Mục tiêu của chƣơng này là phân tích lƣu
WiMAX traffic recorded in the data base, lƣợng WiMAX đƣợc lƣu trữ trong cơ sở dữ
which was already used and described in liệu, đã đƣợc sử dụng và mô tả trong
previous chapter, in order to establish if the chƣơng trƣớc, để xem xem liệu các vết
corresponding traces exhibit LED or not. As it tƣơng ứng có thể hiện LRD hay không. Nhƣ
was already mentioned, one of the sources of đã đƣợc đề cập, một trong những nguyên
LED for a BS is its bad positioning. The goal of nhân của LRD đối với một BS là do đặt sai
LED analysis reported in this chapter is to vị trí. Mục tiêu của phân tích LRD trong
identify the BSs which could be bad positioned chƣơng này xác định các BS có thể bị đặt
in the architecture of the WiMAX network sai vị trí trong cấu trúc của mạng WiMAX
which corresponds to the data base. To do this, tƣơng ứng với cơ sở dữ liệu. Để làm đƣợc
we intend to separate the different sources of điều này, chúng tôi dự định tách các nguồn
LED and to eliminate the effects of all LED LRD khác nhau và loại bỏ những ảnh hƣởng
sources with the exception of the bad của tất cả các nguồn LRD ngoại trừ việc đặt
positioning. To attain this goal we have sai vị trí. Để đạt đƣợc mục tiêu này, chúng
identified some software products which can be tôi đã xác định đƣợc một số sản phẩm phần
used to estimate the Hurst parameter for each mềm có thể đƣợc sử dụng để ƣớc tính tham
uplink or downlink trace in the database, such số Hurst cho mỗi vết downlink hay uplink
as SELFIS which will be presented in the next trong cơ sở dữ liệu, chẳng hạn nhƣ SELFIS
sub-section or some Matlab® functions as HE sẽ đƣợc trình bày trong tiểu mục tiếp theo
ST, which will be used in a subsequent sub- hay một số hàm Matlab ® nhƣ HE ST, sẽ
section. đƣợc sử dụng trong một tiểu mục tiếp theo.
SELFIS (SELF-similarity analysis) is a java- SELFIS (phân tích tự đồng dạng) là một
based software tool for self-similaritv and LED công cụ phần mềm java dùng cho phân tích
analysis, developed by T, Karagiannis and M, tự đồng dạng và phân tích LRD, đƣợc phát
Faloutsos, [KMF04] at University of triển bởi T, Karagiannis và M, Faloutsos,
California. It implements the following [KMF04] tại Đại học California. Nó thực thi
estimators of H: Aggregate Variance, những ƣớc lƣợng H sau đây: Phƣơng sai
Periodogram, Variance of Eesiduals, Whittle tổng hợp, đồ thị chu kỳ, Phƣơng sai của các
Estimator, E/S, Absolute Moments and the Residual (phần dƣ), Ƣớc tính Whittle, E / S,
Abry-Veiteh Estimator which were already Moment tuyệt đối và Ƣớc tính Abry-Veiteh
presented in Chapter 2. đã đƣợc trình bày trong Chƣơng 2.
Using the H parameters estimated using the R/S Với việc sử dụng các tham số H đƣợc ƣớc
estimator from SELFIS, we will identify in the lƣợng bằng ƣớc tính R/S từ SELFIS, trong
following some hidden periodicities in the phần sau, chúng tôi sẽ xác định một số chu
WiMAX traffic and we will find as solution to kỳ ẩn trong lƣu lƣợng WiMAX và chúng tôi
reduce the effects of this first source of LED, sẽ tìm ra giải pháp để làm giảm tác động
the segmentation of the time-series. As it was của nguồn LRD đầu tiên này, sự phân đoạn
already said, the other sources of LED in data của chuỗi thời gian. Nhƣ đã đƣợc đề cập,
communication traffic are: its variable rate, the các nguồn khác LRD khác trong lƣu lƣợng
existence of heavy tail data streams, the truyền thông dữ liệu bao gồm: tốc độ biến
feedback mechanisms in the TCP protocol and thiên của nó, sự tồn tại của các luồng dữ
the bad positioning of the BSs, These sources liệu heavy tail (đuôi nặng), các cơ chế phản
of LED have different effects in downlink and hồi trong giao thức TCP và vị trí sai của các
in uplink. The principal difference between BS. Các nguồn LRD này có tác động khác
these two phases of wireless communications is nhau trong downlink và uplink. Sự khác biệt
given by the access to Internet, The majority of chính giữa hai giai đoạn của truyền thông
users make more frequently downloads that không dây này là do cách thức truy cập
uploads on different Internet sites. Generally, Internet, Đa số ngƣời dùng thƣờng
the messages transmitted in uplink are shorter download nhiều hơn upload trên các trang
than the messages transmitted in downlink. The web khác nhau. Nói chung, các tin truyền đi
variability of the traffic rate is produced by trong uplink ngắn hơn so với các tin truyền
mechanisms such as data streaming (required đi trong downlink. Tính biến thiên của tốc
by multimedia applications) which are more độ lƣu lƣợng là do các cơ chế nhƣ luồng dữ
specific for the downlink than for the uplink. liệu (bắt buộc đối với các ứng dụng đa
phƣơng tiện) có xu hƣớng downlink hơn
uplink.
Cùng một cơ chế, các luồng dữ liệu, tạo ra
Same mechanism, the data streaming, produces chuỗi thời gian có phân phối heavy tail
time-series with heavy tail distributions, so this (nặng đuôi), do đó loại phân phối này xuất
kind of distributions appear more frequently in hiện trong downlink thƣờng xuyên hơn so
downlink than in uplink. The feedback với trong uplink. Cơ chế phản hồi trong giao
mechanism in TCP protocol depends on the thức TCP phụ thuộc vào độ dài của tin đang
length of the message which is currently đƣợc truyền đi. Cơ chế này hoạt động khó
transmitted. This mechanism works heavy in khăn nếu các tin nhắn dài. Vì vậy, cơ chế
the case of long messages. So, the feedback phản hồi tạo ra LRD trong downlink mạnh
mechanism produces stronger LRD in mẽ hơn so với trong uplink. Vì những lý do
downlink than in uplink. For these reasons, we này, chúng ta có thể xem xét nguồn chính
can consider as principal sources of LRD in của LRD trong lƣu lƣợng uplink là do các
uplink traffic the hidden periodicities and the chu kỳ ẩn và vị trí sai của các BS. Kết quả
bad positioning of BSs, In consequence, after là, sau khi LRD do các chu kỳ ẩn giảm,
the reduction of LRD produced by hidden chúng ta có thể kết luận rằng nguồn LRD
periodicities, we can consider that the single duy nhất còn lại trong các lƣu lƣợng uplink
LRD source remained in the uplink traffic is the là vị trí sai của các BS. Sau khi giảm thiểu
bad positioning of BSs, After the reduction of ảnh hƣởng của các chu kỳ ẩn chúng tôi sẽ so
the effect of the hidden periodicities we will sánh đặc tính LRD trong uplink và
compare the LRD comportment in uplink and downlink của mỗi BS, chúng tôi sẽ xác định
downlink of each BS, we will identify the các tính chất thông thƣờng của một BS trên
normal behavior of a BS from the LRD point of quan điểm LRD và chúng tôi sẽ cô lập các
view and we will isolate the BSs which deviate BS lệch khỏi biến đổi thông thƣờng này.
from this normal behavior. These BSs could be Các BS này có thể đƣợc coi là sai vị trí.
considered as bad positioned,
4.3 Đánh giá tham số H bằng việc sử dụng
4.3 Evaluation of H Using R/S Method Phƣơng pháp R / S.
By initial tests performed using the WiMAX
Bằng các thí nghiệm ban đầu đƣợc thực
data base (which are not presented here to keep
hiện bằng cách sử dụng cơ sở dữ liệu
a decent length of the thesis), we have observed
WiMAX (sẽ không đƣợc trình bày ở đây để
that SELFIS makes an acceptable estimation of
đảm bảo chiều dài chuẩn của luận án),
H for time series which have a long enough
chúng tôi thấy rằng SELFIS đƣa ra ƣớc tính
length, when the R/S estimator is used. As we
có thể chấp nhận đƣợc của tham số H cho
have stated in Chapter 2, the quality of the R/S
chuỗi thời gian có độ dài vừa đủ, khi sử
estimation decrease with the decreasing of the
dụng ƣớc lƣợng R/S. Nhƣ chúng tôi đã nêu
analyzed sequence length, due to the increasing
trong Chƣơng 2, chất lƣợng của ƣớc tính R /
of the polarization of that estimator. For this
reason, we will use the R/S estimator to prove S giảm khi chiều dài chuỗi phân tích giảm,
that the traffic from our database contains some do sự phân cực tăng theo thời gian của ƣớc
hidden periodicities. We have already observed lƣợng đó. Vì vậy, chúng tôi sẽ sử dụng ƣớc
a periodicity of 24 hours in the previous lƣợng R / S để chứng minh rằng lƣu lƣợng
chapter. To make simpler the analysis of hidden từ cơ sở dữ liệu của chúng tôi có chứa một
periodicities, we have separated the uplink and số chu kỳ ẩn. Chúng tôi đã quan sát thấy
the downlink traffic. một chu kỳ 24 giờ trong các chƣơng trƣớc.
Để làm cho việc phân tích các chu kỳ ẩn
đơn giản hơn, chúng tôi đã tách lƣu lƣợng
downlink và uplink riêng ra.
The length of the entire time-series in our Chiều dài của toàn bộ chuỗi thời gian trong
database is of eight weeks. As a first cơ sở dữ liệu của chúng tôi là tám tuần. Ở
experiment we calculated the value of H using thí nghiệm đầu tiên, chúng tôi tính giá trị
the R/S estimator for the sixty-six time series, của H bằng việc sử dụng ƣớc lƣợng R/S cho
corresponding to all BSs, The results are 66 chuỗi thời gian, tƣơng ứng với tất cả các
presented in Table 1 in Appendix, We can BS. Các kết quả đƣợc trình bày trong Bảng
observe that the values of H are between 0.57 1 tại Phụ lục. Chúng ta có thể thấy rằng các
and 0.756, so H belongs to the theoretical giá trị của H nằm trong khoảng từ 0.57 đến
interval that proves the presence of LED (H e 0.756, vì vậy H thuộc khoảng thời gian lý
[0.5, l]). So, the downlink WiMAX traffic thuyết, minh chứng cho sự xuất hiện của
exhibits LED, observation which can explain LRD (H e [0.5, l]). Vì vậy, lƣu lƣợng
why the real performance of a real wireless WiMAX downlink thể hiện LRD, giải thích
network is inferior to its value estimated tại sao hiệu suất thực tế của mạng không
theoretically. dây lại thấp hơn giá trị ƣớc tính trên lý
thuyết.
Next, we searched the hidden periodicities. We Tiếp theo, chúng tôi tìm kiếm các chu kỳ ẩn.
have split the time series into weeks. We have Chúng ta đã chia chuỗi thời gian thành các
obtained eight new time series for each BSs and tuần. Chúng tôi đã có đƣợc tám chuỗi thời
for each of these series we have calculated the gian mới cho mỗi BS và với mỗi chuỗi này,
new values of H. The results are presented in chúng tôi đã tính các giá trị mới của H. Kết
Table 2 in Appendix. The majority of the quả đƣợc trình bày trong bảng 2 của Phụ
values of H are smaller than the H value of the lục. Đa số giá trị của H đều nhỏ hơn giá trị
entire series (composed by the eight weeks). H của toàn chuỗi (đƣợc cấu thành từ 8
Hence, the downlink WiMAX series contain tuần). Do đó, chuỗi WiMAX downlink có
hidden periodicities with values between a chứa các chu kỳ ẩn có giá trị từ 1 đến 8
week and eight weeks. This source of LED can tuần. Nguồn này của LRD có thể đƣợc loại
be eliminated by performing the LED analysis bỏ bằng cách thực hiện các phân tích LRD
on segments having the length of one day. trên các phân đoạn có độ dài một ngày.
In the following we will present a similar LED Trong phần tiếp theo, chúng tôi sẽ trình bày
analysis for the uplink traffic. Contrary to the một phân tích LRD tƣơng tự đối với lƣu
method presented in Chapter 3, where was lƣợng uplink. Trái với phƣơng pháp đƣợc
considered only the downlink traffic, we are trình bày trong Chƣơng 3, chƣơng chỉ xem
interested now in the uplink traffic as well. The xét đến lƣu lƣợng downlink, bây giờ chúng
problem discussed in Chapter 3 was connected tôi cũng quan tâm tới lƣu lƣợng uplink. Vấn
with the estimation of the moment when a đề đƣợc thảo luận trong Chƣơng 3 có liên
given BS will saturate. The saturation appears quan đến ƣớc lƣợng thời điểm bão hòa của
only in the presence of a wide traffic, and we một BS cho trƣớc. Sự bão hòa chỉ xuất hiện
have observed that the traffic in downlink is nếu một lƣu lƣợng rộng xuất hiện, và chúng
more intense than the traffic in uplink. For this tôi đã quan sát thấy rằng lƣu lƣợng tin ở
reason we have considered only the downlink downlink mạnh hơn so với lƣu lƣợng tin ở
traffic in Chapter 3, The problem proposed in uplink. Vì vậy, chúng tôi chỉ xem xét lƣu
this section is different. We try to separate the lƣợng downlink trong Chƣơng 3. Vấn đề
normal and the exceptional behaviors of the đƣợc đề xuất trong phần này hoàn toàn
traffic. To identify these behaviors we must khác. Chúng tôi cố gắng tách biệt những đặc
know the comportment of a BS in both tính thông thƣờng và đặc tính bất thƣờng
downlink and uplink. For the moment we are của lƣu lƣợng. Để xác định những đặc tính
interested if the uplink traffic contains hidden này, chúng tôi phải biết các tính chất của
periodicities as well, một BS trong cả downlink và uplink. Hiện
tại chúng tôi đang quan tâm đến việc liệu
lƣu lƣợng uplink có các chu kỳ ẩn hay
không,
First we use the R/S method to estimate the H Trƣớc tiên, chúng tôi sử dụng phƣơng pháp
parameter corresponding to the sixty-six time R/S để ƣớc tính tham số H tƣơng ứng với 66
series (66 BSs), The results are presented in chuỗi thời gian (66 BS). Các kết quả đƣợc
Table 3 in Appendix, As in downlink, the Hurst trình bày trong Bảng 3 của Phụ lục. Giống
parameter belongs to the theoretical interval nhƣ trong downlink, tham số Hurst thuộc về
that proves the presence of LED (H e [0.5, l]). khoảng thời gian lý thuyết chứng minh sự
The values of H are between 0,56 and 0,754, xuất hiện của LRD (H e [0,5, l]). Các giá trị
Next, we have split the time series into weeks. của H nằm trong khoảng từ 0.56 đến 0.754.
We have obtained eight new time series, for
Tiếp theo, chúng tôi đã chia chuỗi thời gian
each BS and for each of these series we have
thành tuần. Chúng tôi đã có đƣợc tám chuỗi
calculated the new values of H. The results are
thời gian mới, với mỗi BS và mỗi chuỗi thời
presented in Table 4 in Appendix, The
gian mới này, chúng tôi tính giá trị mới của
conclusion is that the entire series (of eight
H. Kết quả đƣợc trình bày trong Bảng 4 của
weeks) exhibits stronger LED than each weekly
series. Hence, the uplink WiMAX traffic Phụ lục. Kết luận là toàn bộ chuỗi (tám
contains hidden periodicities with periods tuần) thể hiện LRD mạnh hơn mỗi chuỗi
between one week and eight weeks as well. So, tuần. Do đó, lƣu lƣợng WiMAX uplink
the normal comportment of the WiMAX traffic cũng có các chu kỳ ẩn với khoảng thời gian
supposes the presence of hidden periodicities. It từ một đến tám tuần. Vì vậy, những đặc tính
is plausible that one of those hidden bình thƣờng của lƣu lƣợng WiMAX thể
periodicities to correspond to a period of four hiện các chu kỳ ẩn.
weeks, taking into account social reasons
connected with the organization of the work in
enterprises which supposes more deliveries at
the end of the month and more production at
the beginning of the month. Another hidden Có khả năng, một trong những chu kỳ ẩn
periodicity could correspond to a period of a tƣơng ứng với khoảng thời gian bốn tuần, có
week, taking into account the reduction of tính đến lý do xã hội liên quan đến cách tổ
activity on the duration of weekends. The effect chức làm việc trong các doanh nghiệp có
of those hidden periodicities can be reduced by lƣợng giao hàng nhiều hơn vào cuối tháng
the segmentation of the time series. To continue và lƣợng hàng sản xuất nhiều hơn vào đầu
the identification of hidden periodicities in tháng . Một chu kỳ ẩn khác có thể tƣơng
WiMAX traffic we must make another ứng với một khoảng thời gian một tuần, có
segmentation of the time-series. The segments tính đến việc giảm hoạt động vào cuối tuần.
will have shorter lengths, of one day. To make Tác động của những chu kỳ ẩn có thể đƣợc
the LRD analysis of those segments we need a giảm thiểu bằng việc phân chia chuỗi thời
better estimator for H than the R/S estimator. gian. Tiếp tục xác định các chu kỳ ẩn trong
As it was specified in Chapter 2, based on the lƣu lƣợng WiMAX, chúng tôi phải tiếp tục
theoretical arguments, the generalized phân đoạn chuỗi thời gian. Các phân đoạn
quadrature variations estimator based on sẽ ngắn hơn, độ dài một ngày. Để phân tích
wavelets is the best estimator for the Hurst LRD cho các phân đoạn này, chúng tôi cần
parameter in the case of discrete observations, một ƣớc lƣợng tốt hơn cho H thay vì ƣớc
as the traces in our database are. To verify lƣợng R/S. Nhƣ đã đƣợc cụ thể hóa trong
experimentally this assertion, we will compare Chƣơng 2, dựa trên những tranh luận về mặt
in the following sub-section some SELFIS lý thuyết, ƣớc lƣợng của các biến đổi cầu
estimators with the generalized quadrature phƣơng tổng quát dựa trên Wavelet là ƣớc
variations Hurst parameter estimator based on lƣợng tốt nhất cho tham số Hurst trong
wavelets. trƣờng hợp các quan sát rời rạc, nhƣ các vết
trong cơ sở dữ liệu của chúng tôi. Để xác
minh thực nghiệm khẳng định này, trong
tiểu mục sau chúng tôi sẽ so sánh một số
ƣớc lƣợng SELFIS với chƣơng trình ƣớc
lƣợng tham số Hurst các biến đổi cầu
phƣơng tổng quát dựa trên Wavelet.
4.4 A Comparison of Some Estimators of the 4.4 So sánh của một số ƣớc lƣợng của tham
Hurst Parameter Based on Simulation số Hurst dựa trên mô phỏng
The following estimators of the Hurst Các ƣớc lƣợng sau đây của các tham số
parameter are considered in the next Hurst đƣợc xem xét trong các mô phỏng
simulations: Aggregate variance, R/S, tiếp theo: phƣơng sai tổng hợp, R / S, Biểu
Periodogram, and Absolute moments đồ chu kỳ, và các moment tuyệt đối (thực
(implemented in SELFIS) and generalized hiện trong SELFIS) và ƣớc lƣợng biến đổi
quadrature variations estimator (also called cầu phƣơng tổng quát hoá (còn gọi là Abry-
discrete Abry-Veiteh) (implemented in Matlab- Veiteh rời rạc) (đƣợc thực thi trong hàm
function HEST). All these estimators were Matlab HEST). Tất cả các ƣớc lƣợng này đã
already defined and analyzed in Chapter 2. We đƣợc định nghĩa và phân tích trong Chƣơng
will use in the following simulations two types 2. Trong các mô phỏng sau, chúng tôi sẽ sử
of random processes with known values of H dụng hai loại quy trình ngẫu nhiên với giá
and we will check the estimated values given trị H đã biết và kiểm tra giá trị ƣớc lƣợng
by different estimation methods. của các phƣơng pháp ƣớc lƣợng khác nhau.
For the first simulations we considered a White Đối với các mô phỏng đầu tiên chúng tôi coi
Gaussian Noise (WGN) as input process. một Nhiễu Gauss trắng (WGN) nhƣ quá
trình đầu vào.
Bảng 4.1: Quá trình đầu vào WGN
Table 4.1: WGN input process.
Analyzing the results in Table 4.1, it can be Phân tích kết quả trong bảng 4.1, có thể thấy
observed the increasing of the bias of R/S rằng độ chênh lệch của các ƣớc lƣợng R/S
estimations with the decreasing of the length of tăng khi giảm chiều dài của các chuỗi đầu
the input sequences. The superiority of the vào. Tính vƣợt trội của ƣớc lƣợng dựa trên
wavelet based estimator (HEST) is obvious. wavelet rất rõ ràng.
Next, we considered a fBm input process Tiếp theo, chúng tôi xét một quá trình đầu
containing 10.000 samples, with the following vào fBm chứa 10.000 mẫu, với các giá trị
values of H: 0.5, 0.6, 0.7, 0.8, and 0.9. The của H nhƣ sau: 0.5, 0.6, 0.7, 0.8, và 0.9. Kết
results are shown in Table 4.2. quả đƣợc trình bày trong bảng 4.2
Bảng 4,2: quá trình đầu vào fBm.
Table 4,2: fBm input process.
The results presented in Table 4,2 prove that Các kết quả đƣợc trình bày trong Bảng 4,2
the precision of Hurst parameter estimators chứng minh rằng độ chính xác của ƣớc
from SELFIS depends on its values. For small lƣợng tham số Hurst từ SELFIS phụ thuộc
values of H, the R/S estimator seams to be the vào giá trị của nó. Đối với các giá trị H nhỏ,
best. For intermediate values of H, the Absolute ƣớc lƣợng R / S dƣờng nhƣ là ƣớc lƣợng tốt
moments estimator is the best one. For high nhất. Đối với các giá trị H trung bình,
value s of H, the best estimator used by SELFIS những ƣớc lƣợng moment tuyệt đối là tốt
is the Aggregate variance. Once again, the nhất. Với các giá trị H cao, ƣớc lƣợng tốt
results obtained by applying the generalized nhất dƣợc sử dụng bởi SELFIS là Phƣơng
quadrature variations estimator based on sai tổng hợp. Một lần nữa, kết quả thu đƣợc
wavelets are better than the results obtained by bằng việc áp dụng các ƣớc lƣợng biến đổi
using estimators implemented in SELFIS, The cầu phƣơng tổng quát dựa trên Wavelet tốt
two types of simulations already analyzed hơn so với kết quả thu đƣợc bằng cách sử
recommend the use of the wavelet based dụng ƣớc lƣợng đƣợc thực hiện trong
generalized quadrature variations estimator for SELFIS. Hai loại mô phỏng đã đƣợc phân
Hurst parameter estimation. These results are in tích cho thấy cần dùng ƣớc lƣợng biến đổi
agreement with the theoretical analysis made in cầu phƣơng tổng quát hoá để ƣớc lƣợng
sections 2,8,1 and 2,8,2, showing that the tham số Hurst. Các kết quả này phù hợp với
generalized quadrature variations estimator những phân tích mang tính lý luận đƣợc
based on wavelets is not polarized, robust and thực hiện trong phần 2,8,1 và 2,8,2, cho
efficient and recommends the use of the thấy các ƣớc lƣợng biến đổi cầu phƣơng
generalized quadrature variations estimator tổng quát dựa trên Wavelet không phân cực,
based on wavelets are better than the results mạnh mẽ và hiệu quả và cho thấy việc sử
obtained by using estimators implemented in dụng các ƣớc lƣợng biến đổi cầu phƣơng
SELFIS. tổng quát dựa trên wavelets tốt hơn các kết
quả đạt đƣợc bằng cách sử dụng ƣớc lƣợng
đƣợc thực thi trong SELFIS.
The two types of simulations already analyzed Hai loại mô phỏng đƣợc phân tích trƣớc đây
recomme nd the use of the wavelet based cho thấy chúng ta nên dùng ƣớc lƣợng biến
generalized quadrature variati ons estimator for đổi cầu phƣơng tổng quát hoá dựa trên
Hurst parameter estimation. These results are in wavelet để ƣớc lƣợng tham số Hurst. Các
agreement with the the oretical analysis made kết quả này phù hợp với phân tích lý thuyết
in sections 2 .8.1 and 2.8.2, showing that the trong phần 2.81 và 2.82 cho thấy rằng ƣớc
generalized quadrature variations estimator lƣợng biến đổi cầu phƣơng tổng quát hoá
based on wavelets is not p olarized, robust and không phân cực, bền vững và hiệu quả và
efficient and recommends the use of the cho thấy chúng ta nên dùng ƣớc lƣợng biến
generalized quadrature variations estimator đổi cầu phƣơng tổng quát hoá dựa trên các
based on wavelets for the estimation of daily wavelet để ƣớc lƣợng tham số H của lƣu
WiMAX traffic's H parameter. The lƣợng tin của mạng WiMAX hàng ngày.
appropriateness of this estimator for the LRD
analysis of traces from our database can be Có hai lý do bổ sung lẫn nhau giải thích sự
explained adding two supplementary reasons. phù hợp của ƣớc lƣợng này trong việc phân
The first reason is the discrete nature of the tích LRD của các vết từ cơ sở dữ liệu của
traces from our data base (the number of chúng tôi. Lý do thứ nhất là bản chất rời rạc
packets of data is acquired every 15 minutes) của các vết từ cơ sở dữ liệu của chúng tôi
because the generalized quadrature variations (số lƣợng các gói dữ liệu có đƣợc sau mỗi
estimator based on wavelets was specially 15 phút) bởi vì các ƣớc lƣợng biến đổi cầu
conceived for discrete events (see Chapter 2), phƣơng tổng quát dựa trên Wavelet đã đƣợc
The second reason is the non-stationarv nature xây dựng chủ yếu cho các sự kiện rời rạc
of the traces from our database (already (xem Chƣơng 2), Lý do thứ hai là bản chất
observed in Chapter 3 as a consequence of the không dừng của các vết trong cơ sở dữ liệu
evolution in time of the overall tendency of the của chúng tôi (đã đƣợc quan sát thấy trong
traffic) which does not affect the precision of Chƣơng 3 nhƣ hệ quả của sự phát triển theo
the estimation made by the generalized thời gian của khuynh hƣớng tổng thể của
quadrature variations estimator based on lƣu lƣợng), không ảnh hƣởng đến độ chính
wavelets as it was shown in Chapter 2. The xác của ƣớc lƣợng đƣợc tạo ra do chƣơng
traces in the data base are discrete in time non- trình biến đổi cầu phƣơng tổng quát hoá dựa
stationarv random processes. The source of trên Wavelet nhƣ đã đƣợc trình bày trong
non-stationaritv is the traffic’s overall Chƣơng 2.
tendency.
Các vết trong cơ sở dữ liệu là rời rạc trong
các quá trình ngẫu nhiên không dừng.
Nguồn không dừng là khuynh hƣớng chung
của lƣu lƣợng.
4.5 Ƣớc tính Tham số Hurst bằng việc sử
4.5 Estimation of Hurst Parameter Using a dụng một phƣơng pháp dựa trên wavelet
Wavelet Based Method
In the following we will continue the LRD Trong phần tiếp theo, chúng tôi sẽ tiếp tục
analysis of WiMAX traffic by segmenting the phân tích LRD của lƣu lƣợng tin WiMAX
time-series having the length equal with a bằng cách phân chia các chuỗi thời gian có
week, into segments with the length equal with độ dài tƣơng đƣơng với một tuần, thành các
a day. In this section, we will apply the phân đoạn với chiều dài tƣơng đƣơng với
generalized quadrature variations Hurst một ngày. Trong phần này, chúng tôi sẽ áp
parameter estimator based on wavelets to the dụng ƣớc lƣợng tham số Hurst biến đổi cầu
daily WiMAX traffic. The wavelet transform phƣơng tổng quát dựa trên Wavelet cho lƣu
with its natural scale invariance and low lƣợng tin của mạng WiMAX hàng ngày.
computational cost is suitable for analyzing of Biến đổi wavelet với bản chất bất biến tỷ lệ
LRD process. và chi phí tính toán thấp của nó phù hợp cho
phân tích quá trình LRD.
4.5.1 Lƣu lƣợng downlink
4.5.1 Downlink Traffic
This section presents the evaluation of H in the Phần này trình bày việc đánh giá của H
case of WiMAX daily downlink traffic. We trong trƣờng hợp lƣu lƣợng WiMAX
have already identified in Chapter 3 a hidden downlink hàng ngày. Trong Chƣơng 3,
periodicity of the downlink WiMAX traffic, chúng tôi đã xác định một chu kỳ ẩn của lƣu
with the period of a day (24 hours), which can lƣợng WiMAX downlink, với khoảng thời
be also explained by social reasons, taking into gian một ngày (24 giờ), cũng có thể đƣợc
account the cycle dav-night. We believe that it giải thích bằng lý do xã hội, có tính chu kỳ
is the hidden periodicity in the WiMAX traffic ngày-đêm. Chúng tôi tin rằng nó là chu kỳ
with the shorter period. The goal of this sub- ẩn trong lƣu lƣợng WiMAX với khoảng thời
section is to identify the normal behavior of the gian ngắn hơn. Mục tiêu của tiểu mục này là
downlink traffic. The idea is to separate the xác định các đặc tính thông thƣờng của lƣu
BSs with normal behavior from the LRD lƣợng downlink. Ý tƣởng là tách các BS có
perspective. In the following, we will not be đặc tính thông thƣờng từ quan điểm LRD.
interested in the intrinsic values of the Hurst Trong phần tiếp theo, chúng tôi sẽ không
parameter. The goal will be to identify the days quan tâm đến giá trị nội tại của tham số
with long-range dependent traffic. We will Hurst. Mục tiêu là để xác định những ngày
consider that a day has LRD if the có lƣu lƣợng phụ thuộc thời gian dài. Chúng
corresponding value of H is bigger than 0,5, tôi sẽ coi một ngày có LRD nếu giá trị
The results are shown in Figure 1 in Appendix, tƣơng ứng của H lớn hơn 0,5, Kết quả đƣợc
The days with long-range dependent traffic are trình bày trong Hình 1 của Phụ lục, Những
represented in black. For the majority of BSs, ngày có lƣu lƣợng phụ thuộc thời gian dài
the number of black rectangles is bigger than đƣợc biểu diễn bằng màu đen. Đối với đa số
the number of white rectangles. Indeed, các BS, số lƣợng hình chữ nhật màu đen
downlink daily traffic exhibits LRD, Based on nhiều hơn số lƣợng các hình chữ nhật màu
these results we realized the BSs classification trắng.Thật vậy, lƣu lƣợng downlink hàng
in terms of the number of days for which the ngày thể hiện LRD. Dựa trên những kết quả
downlink traffic exhibits LRD (number of này, chúng tôi thực hiện việc phân loại các
values H greater than 0.5). The results are BS dựa trên số lƣợng ngày lƣu lƣợng
shown in Table 4,3. downlink thể hiện LRD (số lƣợng giá trị H
Number of values H>0.5 BS lớn hơn 0,5). Kết quả đƣợc trình bày trong
bảng 4.3
Table 4,3: BSs classification in downlink. Bảng 4.3: Phân loại các BS trong downlink.
We can observe the extreme cases: BS63 with Chúng ta có thể thấy các trƣờng hợp đặc
only 14 days with LRD traffic (the best case) biệt: BS63 với chỉ 14 ngày có lƣu lƣợng
and BS32 with 42 days with LRD traffic (the LRD (trƣờng hợp tốt nhất) và BS32 với 42
worse case). ngày có lƣu lƣợng LRD (trƣờng hợp xấu
hơn).
4.5.2 Lƣu lƣợng Uplink
4.5.2 Uplink Traffic
Trong phần tiếp theo, chúng tôi sẽ phân tích
In the following we will analyze the H
parameter for WiMAX uplink daily traffic. các tham số H đối với lƣu lƣợng WiMAX
Taking into account the fact that the bad uplink hàng ngày. Nếu xét đến vị trí sai của
positioning of the BS, as source of LED, affects các BS, với vai trò là nguồn của LRD, ảnh
both uplink and downlink traffic and the fact hƣởng đến cả lƣu lƣợng downlink và uplink
that there are more sources of LED in downlink và việc trong downlink có nhiều nguồn
than in uplink, it is preferable to analyze the LRD hơn so với trong uplink, việc phân tích
uplink traffic to identify the bad positioned lƣu lƣợng uplink để xác định các BS sai vị
BSs, We have analyzed all the sixtv-six traces trí sẽ thích hợp hơn. Chúng tôi đã phân tích
of uplink traffic using the generalized tất cả 66 vết của lƣu lƣợng uplink bằng cách
quadrature variations estimator based on sử dụng các ƣớc lƣợng biến đổi cầu phƣơng
wavelets, for each of the days of the eight tổng quát dựa trên Wavelet, cho mỗi ngày
weeks, and we have obtained the results trong tám tuần, và chúng tôi đã thu đƣợc
presented in Figure 2 in Appendix, The uplink những kết quả đƣợc trình bày trong hình 2
daily traffic exhibits LED as well. For the của Phụ lục, Lƣu lƣợng uplink hàng ngày
uplink traffic some sources of LED can be cũng thể hiện LRD. Đối với lƣu lƣợng
eliminated, but the bad BSs positioning is a uplink, một số nguồn LRD có thể đƣợc loại
common source of LED for both uplink and bỏ, nhƣng các BS sai vị trí là một nguồn
downlink traffic. LRD phổ biến đối với cả lƣu lƣợng tin
uplink và downlink.
In Table 4,4 we realized the classification of Trong Bảng 4.4, chúng tôi thực hiện việc
the sixtv-six BSs in terms of the number of phân loại 66 BS dựa trên số ngày lƣu lƣợng
days for which the uplink traffic exhibits LED uplink có LRD (số các giá trị H lớn hơn
(number of values H greater than 0,5), 0,5),
Number of values H>0.5 BS
Số các giá trị H> 0,5 BS
Bảng 4.4: Phân loại các BS trong uplink.
Table 4,4: BSs classification in uplink.
The worse case is given by BS32 for which the Các trƣờng hợp xấu hơn thuộc BS32, với số
number of days with LED traffic is greater than ngày có lƣu lƣợng LRD nhiều hơn số ngày
the number of days without LED traffic (42 không có lƣu lƣợng LRD (42 ngày với lƣu
days with LED traffic). The BSs with the lƣợng LRD). Các BS có số ngày ngày có
smallest number of days for which the traffic lƣu lƣợng LRD ít nhất là BS49 và BS62 (17
manifest LED are BS49 and BS62 (17 days ngày có lƣu lƣợng LRD).
with LED traffic).
4.5.3 BSs localization analysis in uplink and 4.5.3 Phân tích cục bộ hóa các BS trong
downlink uplink và downlink
The goal of this section is the comparison Mục tiêu của phần này là so sánh giữa lƣu
between the daily uplink and downlink traffic
for each BS. If the value estimated for Hurst lƣợng hàng ngày của uplink và downlink
parameter, corresponding to a given day, was đối với mỗi BS. Nếu giá trị ƣớc tính của
greater than 0.5 we decided that the traffic of tham số Hurst, tƣơng ứng với một ngày cho
that day exhibits LRD. trƣớc, lớn hơn 0,5 thì chúng tôi xác định
rằng lƣu lƣợng trong ngày đó thể hiện LRD.
The existence of LRD in the downlink channel Sự tồn tại của LRD trong kênh downlink
is marked in Figure 3, in Appendix, with red đƣợc đánh dấu bằng màu đỏ và sự tồn tại
and the existence of LRD in the uplink channel của LRD trong kênh uplink đƣợc đánh dấu
is marked with green. If in a day both channels bằng màu xanh lá cây trong hình 3, trong
are characterized by LRD then we have a black Phụ lục. Nếu trong một ngày cả hai kênh
rectangle in Figure 3 in Appendix. đều thể hiện LRD thì chúng tôi có một hình
chữ nhật màu đen trong hình 3 của Phụ lục.
The number of days without LRD is greater Một vài BS trong tổng số 22 BS có số ngày
than the number of days with LRD for a không có LRD nhiều hơn số ngày có LRD.
number of twenty-two BSs. These BSs are: Các BS đó là: BS7, BS49, BS61, BS3, BS4,
BS7, BS49, BS61, BS3, BS4, BS8, BS9, BS16, BS8, BS9, BS16, BS17, BS46, BS48, BS51,
BS17, BS46, BS48, BS51, BS53, BS55, BS58, BS53, BS55, BS58, BS59, BS60, BS62,
BS59, BS60, BS62, BS63, BS64, BS65 and BS63, BS64, BS65 và BS67. Đặc tính thông
BS67. The normal behavior of those BSs is thƣờng của các BS không có LRD. Do đó,
without LRD. Hence, they are well positioned. chúng đƣợc đặt đúng vị trí. Đối với 53 BS,
The downlink traffic contains more days with lƣu lƣợng downlink có nhiều ngày với LRD
LRD than the uplink traffic for fifty-three BSs. hơn so với lƣu lƣợng uplink. Vì vậy, đặc
So, the normal behavior of one BS supposes tính thông thƣờng của một BS đƣợc cho là
more LRD in downlink than in uplink. Taking có nhiều LRD trong downlink hơn so với
into account the fact that the bad positioning of uplink. Nếu xét đến vị trí sai của BS ảnh
the BS affects both uplink and downlink traffic, hƣởng đến cả lƣu lƣợng downlink và uplink,
it is preferable to analyze the uplink traffic to thì việc phân tích lƣu lƣợng uplink để xác
identify the bad positioned BSs. So, we can use định các BS sai vị trí là phù hợp hơn. Vì
the classification in Table 4.4. vậy, chúng ta có thể sử dụng cách phân loại
trong Bảng 4.4.
For other twenty-five BSs, the number of days Với 25 BS khác, số ngày có LRD trong
with LRD is smaller than the number of days uplink ít hơn số ngày không có LRD. Các
without LRD "in uplink. These BSs are: BS19, BS này là: BS19, BS52, BS2, BS5, BS10,
BS52, BS2, BS5, BS10, BS11, BS12, BS14, BS11, BS12, BS14, BS18, BS20, BS21,
BS18, BS20, BS21, BS22, BS27, BS28, BS30, BS22, BS27, BS28, BS30, BS39, BS40,
BS39, BS40, BS42, BS43, BS45, BS47, BS54, BS42, BS43, BS45, BS47, BS54, BS56,
BS56, BS57 and BS66. Because the normal BS57 và BS66. Bởi vì đặc tính thông
behavior of those BSs is without LRD in thƣờng của các BS này không có LRD trong
uplink, we can consider that they are well uplink, nên chúng tôi có thể coi các BS này
positioned as well. cũng đƣợc đặt đúng vị trí.
The traffic of other six BSs has an atvpieally Lƣu lƣợng của sáu BS khác có tính chất bất
behavior, the number of days with LRD in thƣờng, số ngày có LRD trong uplink nhiều
uplink being greater than the number of days hơn số ngày có LRD trong downlink. Các
with LRD in downlink. These BSs are: BS23, BS này là: BS23, BS26, BS32, BS35, BS41
BS26, BS32, BS35, BS41 and especially BS1. và đặc biệt là BS1. Chúng tôi cho rằng các
We consider that these BSs could be BS này có thể đƣợc điều chỉnh vị trí ở phiên
repositioned at the next network release. bản mạng kế tiếp.
Cuối cùng, với mƣời ba BS, phân tích LRD
Finally, for thirteen BSs the LRD analysis đề xuất trong bài này là không phù hợp bởi
proposed in this paper is not relevant because vì trong uplink số ngày LRD nhiều hơn số
there are more days with LRD in uplink than ngày không có LRD. Chúng tôi sẽ trở lại
days without LRD. We will come back to these với các BS này trong tiểu mục sau đây. Các
BSs in the following sub-section. These BSs BS này bao gồm: BS6, BS13, BS15, BS24,
are: BS6, BS13, BS15, BS24, BS25, BS29, BS25, BS29, BS31, BS33, BS36, BS37,
BS31, BS33, BS36, BS37, BS38, BS44 and BS38, BS44 và BS50.
BS50.
4.6 Conclusions 4.6 Kết luận
The aim of this section was to identify the BSs
Mục đích của phần này là để xác định các
bad positioned in a WiMAX network, by traffic
BS sai vị trí trong một mạng WiMAX, bằng
analysis. The identification of the BSs bad
cách phân tích lƣu lƣợng. Việc xác định các
positioned is very important for the planning of
BS sai vị trí rất quan trọng trong việc hoạch
a wireless network. The LRD traffic analysis
định một mạng không dây.
can be developed further by the investigation of
different kinds of traffic which are separated at Phân tích lƣu lƣợng LRD có thể đƣợc phát
the input of each BS as for example, best effort triển thêm qua việc nghiên cứu các loại lƣu
traffic or multimedia traffic or voice traffic. We lƣợng khác nhau đƣợc tách ở khâu đầu vào
preferred to analyze the traffic in its most của mỗi BS ví dụ nhƣ, lƣu lƣợng best effort,
general form. We have proved that WiMAX lƣu lƣợng đa phƣơng tiện hoặc lƣu lƣợng
traffic exhibits LRD. This LRD is influenced thoại. Chúng tôi muốn phân tích lƣu lƣợng
by the presence of some hidden periodicities in ở hình thức chung nhất. Chúng tôi đã chứng
the time series. We have identified the hidden minh rằng lƣu lƣợng WiMAX thể hiện
periodicities with the following periods: one LRD. LRD này bị ảnh hƣởng bởi sự xuất
month, one week and one day. All of them are hiện của một số chu kỳ ẩn trong chuỗi thời
produced by social mechanisms. They can be gian. Chúng tôi đã xác định đƣợc các chu kỳ
removed by the segmentation of traces. We ẩn với các khoảng thời gian sau đây: một
consider that the analysis of daily traffic could tháng, một tuần và một ngày. Tất cả đều
solve the considered problem. The bad position đƣợc hình thành bởi cơ chế xã hội. Chúng
of the BS is a common LED source for both có thể đƣợc loại bỏ bằng việc phân đoạn các
downlink and uplink channels. vết. Chúng tôi cho rằng việc phân tích lƣu
lƣợng hàng ngày có thể giải quyết vấn đề
đang đƣợc xem xét. Các vị trí sai của các
BS là một nguồn LRD phổ biến cho cả hai
kênh uplink và downlink.
Best effort trong Internet đƣợc hiểu là
"không phân biệt đối xử với tất cả các
packet và không đảm bảo bất cứ điều gì về
việc truyền dữ liệu".
Có nhiều nguồn LRD cho kênh downlink
There are more LED sources for the downlink hơn là kênh uplink. Vì vậy đối với việc xác
channel than for the uplink channel. So, for the
định vị trí sai của các BS, sẽ dễ dàng hơn
identification of the BSs bad positioned it is
simpler to analyze the uplink daily traffic. khi phân tích lƣu lƣợng hàng ngày uplink.
We have presented and compared some Hurst
Chúng tôi đã giới thiệu và so sánh một số
parameter estimators highlighting the
superiority of the generalized quadrature ƣớc lƣợng tham số Hurst làm nổi bật tính ƣu
variations estimator based on wavelets for the việt của ƣớc lƣợng biến đổi cầu phƣơng
problem of the identification of the BSs which tổng quát hoá dựa trên wavelet để xác định
are bad positioned. This estimator is unbiased, các BS bị xác định vị trí sai. Ƣớc lƣợng này
effective and robust, if the mother wavelets không lệch, hiệu quả, và chắc chắn, nếu nhƣ
used for its implementation has a number of wavelet mẹ đƣợc sử dụng cho quá trình thực
vanishing moments equal or greater than two,
hiện có số momen triệt tiêu bằng hoặc lớn
as it was proved in Chapter 2, It was conceived
for discrete random processes, as are the traces hơn 2, nhƣ đƣợc chứng minh ở chƣơng 2.
in the considered database are. Its performance Nó đƣợc thiết kế cho quá trình ngẫu nhiên
is not affected by the non stationaritv of the rời rạc, dƣới dạng các vết trong cơ sở dữ
input random processes, as the traces in the liệu đƣợc xét. Hoạt động của wavelet mẹ
considered database are, whose non-stationaritv không bị tác động bởi tính động của quá
is given by their overall tendencies. These trình ngẫu nhiên đầu vào, cũng nhƣ các vết
overall tendencies were identified in Chapter 3,
trong cơ sở dữ liệu đƣợc xét, tính động ấy
The superiority of generalized quadrature
variations estimator based on wavelets against đƣợc xác định bởi các khuynh hƣớng chung
the other estimators of Hurst parameter pre- của chúng. Các khuynh hƣớng chung này
sented in section 2,8 was proved through đƣợc xác định trong chƣơng 3. Tính ƣu việt
simulations in Table 4,1 and Table 4,2 and của ƣớc lƣợng biến đổi cầu phƣơng tổng
justifies once again the opportunity of using quát hóa dựa trên các wavelet so với các
wavelets in communications, giving an unitary
character to this thesis. ƣớc lƣợng tham số Hurst khác đƣợc trình
bày trong phần 2,8 đã đƣợc chứng minh qua
các mô phỏng trong bảng 4,1 và bảng 4,2 và
kiểm chứng một lần nữa cơ hội sử dụng
wavelet trong thông tin liên lạc, cho thấy
một sự nhất quán với giả thuyết này.
Applying two estimation techniques, one for Áp dụng hai kĩ thuật ƣớc lƣợng này, một
the risk of saturation and the second one for the cho nguy cơ bão hoà và một cho tham số
Hurst parameter, we have obtained results Hurst, chúng tôi thu đƣợc các kết quả phù
which are in agreement. Indeed, a BS with hợp. Thật vậy, một BS với lƣợng truy cập
heavy traffic (appreciated with the high đông đúc (đƣợc đánh giá qua tần suất xuất
frequency of apparition of daily LRD) will hiện của LRD hàng ngày cao) sẽ có nguy cơ
have a reduced risk of saturation. This remark
bão hoà nhỏ hơn. Chúng ta có thể kiểm tra
can be verified analyzing comparatively Table
3.2 and Table 4.3. The first BSs in Table 4.3 nhận xét này bằng cách so sánh bảng 3.2 và
could be found on the last column of Table 3.2 bảng 4.3. Có thể thấy các BS đầu tiên trong
and vice versa. Taking into consideration this bảng 4.3 trong cột cuối của bảng 3.2 và
new rule, we can refine now the list of BSs for ngƣợc lại. Xét đến quy tắc mới này, bây giờ
which only the LRD analysis is not relevant. chúng ta có thể lọc danh sách các BS mà
This list is composed by the following BSs: phân tích LRD không liên quan. Danh sách
BS6, BS13, BS15, BS24, BS25, BS29, BS31,
này bao gồm các BS: BS6, BS13, BS15,
BS33, BS36, BS37, BS38, BS44 and BS50.
Some of them can be found on the last column BS24, BS25, BS29, BS31, BS33, BS36,
of Table 3.2. These BSs are: BS6, BS15, BS24, BS37, BS38, BS44 và BS50. Một số BS có
BS25, BS31, BS33, BS36, BS37 and BS38. thể tìm thấy ở cột cuối của bảng 3.2, bao
Taking into consideration their reduced risk of gồm BS6, BS15, BS24, BS25, BS31, BS33,
saturation we believe that those BSs must be BS36, BS37 và BS38. Xét đến việc giảm
also repositioned. BS13, BS29 and BS44 are
nguy cơ bão hòa của chúng, chúng tôi tin
well positioned because they have a high risk of
saturation too. Finally, for BS50 we can not rằng các BS ấy phải đƣợc định vị lại. BS13,
come with a conclusion because for this BS the BS29 và BS44 đƣợc định vị tốt bởi vì chúng
value of ^ot in Table 3.2 has an aberrant value. có nguy cơ bão hoà cao. Cuối cùng, chúng
tôi không thể kết luận về BS50 vì với BS
này giá trị của ^ot trong bảng 3.2 có giá trị
bất thƣờng.
The utility of the algorithm proposed in Chúng tôi đánh giá lợi ích của thuật toán
[PTZD03] was validated in the case of wireless đƣa ra trong [PTZD03] cho trƣờng hợp
networks. The genuine algorithm was adapted mạng không dây. Thuật toán thực sự đƣợc
for wireless traffic. In the phase of data
điều chỉnh cho phù hợp với truy cập không
preparation were considered two sequences of
detail wavelet coefficients as result of the dây. Trong giai đoạn chuẩn bị, chúng tôi xét
MRA, and the ANOVA procedure was hai dãy hệ số wavelet chi tiết do kết quả của
modified to find the weights of those MRA, và quá trình ANOVA đƣợc điều
sequences, which minimize the mean square chỉnh để tìm ra trọng số của các dãy đó,
error of the approximation of traffic variability. điều này sẽ giảm tối thiểu lỗi xấp xỉ bình
In the phase of modeling, the application of the phƣơng trung bình của sự biến đổi lƣu
Box-Jenkins methodology was modified also,
lƣợng tin. Trong giai đoạn mô hình hóa,
applying a new test of stationarity.
chúng tôi áp dụng phƣơng pháp Box-
Jenkins điều chỉnh cho phép kiểm tra tính
chất dừng mới.
Predictions provided accurate estimates with a Dự đoán đƣa ra những ƣớc lƣợng chính xác
minimal computational cost (all the forecasts với giá thành tính toán tối thiểu (tất cả các
were obtained in seconds). The BSs with higher dự đoán đều đƣợc tính bằng giây). Xác định
risk of saturation were identified. đƣợc các BS có nguy cơ bão hoà cao.
A strategy for the selection of MWs, based on Chiến lƣợc chọn các MW, dựa trên tính cục
their time-frequencv localization was proposed. bộ hóa tần số thời gian, đƣợc đề xuất. Qua
It was verified by simulations that in the case of
mô phỏng chúng tôi thấy rằng, trong trƣờng
traffic forecasting, the time localization is the
most important feature of the MW used to hợp dự đoán lƣu lƣợng tin, sự cục bộ hóa
compute the SWT, The best forecasting results thời gian là yếu tố quan trọng nhất của MW
are obtained using the Haar MW, The SWT đƣợc sử dụng để tính toán SWT. Sử dụng
represents the best choice of wavelet transform Haar MW , chúng ta thu đƣợc các kết quả
for wireless traffic forecasting. This is due to its dự đoán tốt nhất. SWT là lựa chọn tốt nhất
translation invariance. The new forecasting trong chuyển đổi wavelet để dự đoán lƣu
algorithm proposed in this thesis is flexible
lƣợng tin của mạng không dây. Điều này có
enough to work with many different datasets
such as network traffic, financial data or đƣợc là do tính bất biến trong chuyển đổi.
transportation data, without requiring important Thuật toán dự đoán mới đƣợc đề xuất trong
modifications. luận văn này khá linh động và có thể áp
dụng cho nhiều tập dữ liệu khác nhau nhƣ
lƣu lƣợng tin mạng, dữ liệu tài chính hay dữ
liệu giao thông vận chuyển mà không cần
những điều chỉnh quan trọng.
We have compared the proposed prediction Chúng tôi so sánh thuật toán dự đoán đƣợc
algorithm with other algorithms, developed in
đề xuất với các thuật toán khác đƣợc phát
our research team and published in companion
papers, based on neural networks, and we triển trong nhóm nghiên cứu của chúng tôi
proved its utility for long term predictions. The và xuất bản các bài báo chung, dựa trên các
proposed forecasting algorithm is faster than mạng nơron, và chúng tôi chứng minh tính
other forecasting algorithms due to the use of hữu dụng của nó trong dự đoán dài hạn.
wavelets (the wavelet transforms are fast), due Thuật toán dự đoán đƣợc đề xuất nhanh hơn
to the use of MRA (we used only three các thuật toán dự đoán khác do sử dụng
sequences of data: c6, d3 and d4) and due to the
wavelet (biến đổi wavelet nhanh), do sử
use of weekly averages. It does not require any
training phase. dụng MRA (chúng tôi chỉ sử dụng 3 chuỗi
dữ liệu: c6, d3, và d4) và do sử dụng trung
bình hàng tuần. Điều này không yêu cầu bất
cứ khâu đào tạo nào.
In Chapter 4 we analyzed the traffic data in a Trong chƣơng 4, chúng tôi đã phân tích dữ
WiMAX network, in order to identify its liệu lƣu lƣợng trong một mạng WiMAX, để
particularities. The strategy chosen for this xác định tính đặc thù của nó. Chiến lƣợc
purpose is based on the LRD of traffic. The
đƣợc lựa chọn cho mục đích này dựa trên
presence of LRD in network traffic has
significant impact on the network performance. LRD của lƣu lƣợng tin. Sự hiện diện của
The performance of wireless communication LRD trong lƣu lƣợng tin của mạng có tác
networks depends on an efficient architecture động đáng kể đến hiệu suất mạng. Hiệu quả
(good positioning of base stations). The thesis hoạt động của mạng truyền thông không dây
contributions in Chapter 4 can be summarized phụ thuộc vào một kiến trúc hiệu quả (sự
as follows: định vị tốt của các trạm cơ sở). Những đóng
góp trong chƣơng 4 có thể đƣợc tóm tắt nhƣ
sau:
The BSs with bad localization have a reduced Các BS với tính cục bộ hóa kém có nguy cơ
risk of saturation as well due to their heavy bão hòa giảm do lƣu lƣợng tin dày đặc của
traffic. This remark permits to make a chúng. Nhận xét này cho phép kiểm nghiệm
reciprocal validation of the results of estimation lại kết quả của ƣớc lƣợng từ chƣơng 3 với
from Chapter 3 with the aid of the estimation sự trợ giúp của các kết quả ƣớc lƣợng đƣợc
results presented in Chapter 4, From a total
trình bày trong chƣơng 4. Từ tổng số sáu
number of sixtv-six BSs the results of the
positioning analysis made are not conclusive mƣơi sáu BS, các kết quả phân tích định vị
only for one BS, đƣợc thực hiện không phải là kết luận chỉ
cho một BS, mà có tính tổng quát cao.