You are on page 1of 6

I.

Time series data

1. Khái niệm

Time series data là dữ liệu được thu thập theo thời gian liên tục, trong đó các quan
sát được thực hiện theo các khoảng thời gian cố định. Điều này có nghĩa là mỗi
điểm dữ liệu trong chuỗi thời gian được đánh dấu bởi một thời điểm cụ thể. Các ví
dụ phổ biến của time series data bao gồm giá cổ phiếu hàng ngày, nhiệt độ hàng
giờ, doanh số bán hàng theo ngày, và các biến số khác theo thời gian.

Time series data thường được sử dụng để phân tích xu hướng, chu kỳ và biến động
theo thời gian. Các ứng dụng của time series data rất đa dạng, từ dự đoán doanh số
bán hàng tới phân tích chu kỳ kinh tế và đánh giá hiệu suất tài chính.

Phân tích time series data đòi hỏi sử dụng các phương pháp thống kê và mô hình
hóa thích hợp để hiểu và dự đoán các biến đổi theo thời gian. Các kỹ thuật phổ
biến bao gồm mô hình ARIMA (AutoRegressive Integrated Moving Average), các
mô hình dựa trên machine learning như Long Short-Term Memory (LSTM) trong
deep learning, và nhiều kỹ thuật khác.

2. Kỹ thuật phân tích

2.1. Phương pháp trung bình

Ví dụ: Nhà sản xuất muốn kiểm tra trung bình mỗi mẻ bia nồng độ cồn sẽ là bao
nhiêu:

STT Độ cồn STT Độ cồn


1 5.3 6 5.5
2 5.4 7 5.2
3 5.3 8 5.4
4 5.2 9 5.2
5 5.3 10 5.3
Mean= 5.31

sử dụng phương pháp “Bình phương bình quân lỗi”:

 "error" = số tiền thực đã trừ trừ số tiền ước tính.

 "error squared" là lỗi ở trên, bình phương.


 Các "SSE" là tổng của các bình phương lỗi.

 Các "MSE" là trung bình của các bình phương lỗi.

STT Độ cồn Error Error STT Độ cồn Error Error


Squared Squared
1 5.3 -0.01 0.0001 6 5.5 0.19 0.0361
2 5.4 0.09 0.0081 7 5.2 -0.11 0.0121
3 5.3 -0.01 0.0001 8 5.4 0.09 0.081
4 5.2 -0.11 0.0121 9 5.2 -0.11 0.0121
5 5.3 -0.01 0.0001 10 5.3 -0.01 0.0001

SSE=0.089 và MSE=0.089/10=0.0089

2.2. Phương pháp tiên tiến lũy thừa đơn:

Áp dụng cho dãy dữ liệu ổn định, không thay đổi nhiều, không có xu hướng theo
mùa:

Công thức:

Ft = Ft-1 + ∝(At-1 - Ft-1)

Ft : Dự đoán tại thời điểm t

A: Dữ liệu thực tế
∝: Hằng số liên tiến

Hằng số liên tiến (alpha) thể hiện độ đáp ứng đối với sự chênh lệch giữa dự đoán
và thực tế. Hằng số này được quyết định bởi bản thân của sản phẩm cũng như cảm
nhận của nhà quản lý. Chẳng hạn, một nhà sản xuất một sản phẩm mà nhu cầu
tương đối ổn định thì tỷ lệ đáp ứng với sự chênh lệch giữa dự đoán và thực tế sẽ
nhỏ. Nếu nhu cầu tăng trưởng nhanh, tỷ lệ này sẽ tăng cao. Hằng số này có giá trị
từ 0 đến 1. Ðể tìm số alpha chính xác nhất thì phảI dùng phương pháp thử sai,
alpha sẽ là giá trị mà làm cho độ lệch trị tuyệt đốI trung bình (Mean Absolute
Deviation-MAD) là nhỏ nhất.

MAD được tính bằng trung bình cộng của độ lệch giữa dự đoán và thực tế, sau khi
đã lấy trị tuyệt đối.
2.3 Phương pháp tiên tiến lũy thừa kép :

Khi tồn tại một xu hướng, có thể xu hướng tăng hoặc giảm, thì kết quả dự đoán
bằng phương pháp liên tiến lũy thừa đơn luôn luôn lệch xa so với thực tế, có thể
thấp hơn hoặc cao hơn. Phương pháp liên tiến lũy thừa kép đã giảI quyết được vấn
đề này bằng cách sử dụng hai hằng số. Hằng số alpha thì đã trình bày ở trên. Hằng
số beta sẽ làm giảm ảnh hưởng của sai số xảy ra giữa thực tế và dự đoán do tồn tại
xu hướng lên xuống.

Hai hằng số này nằm trong giá trị từ 0 đến 1. Tương tự, để tính chính xác nhất
alpha và beta thì dùng phương pháp thử sai. Số alpha và beta sẽ là trị giá để cho độ
lệch trị tuyệt đối trung bình (MAD) và độ lệch phần trăm trị tuyệt đối trung bình
(Mean Absolute Percentage Error-MAPE) nhỏ nhất.

3. Ứng dụng trong R

Trong R Studio, có nhiều gói phần mềm và chức năng hỗ trợ xử lý và phân tích
time series data. Dưới đây là một số gói và cách sử dụng chúng:

3.1 Gói base:

R có nhiều chức năng cơ bản hỗ trợ xử lý time series data, như hàm ts() để tạo đối
tượng time series và các hàm như plot() để vẽ biểu đồ.

3.2. Gói xts và zoo:


Gói xts và zoo cung cấp các phương tiện mở rộng cho xử lý time series data.
Chúng giúp làm việc với dữ liệu time series một cách linh hoạt hơn.

3.3. Gói forecast:

Gói forecast chứa các chức năng cho việc dự đoán time series data, Gói phần mềm
"forecast" trong R là một gói mở rộng được sử dụng để mô hình hóa và dự đoán
chuỗi thời gian. Gói này cung cấp các công cụ hữu ích cho việc xử lý và phân tích
time series data, bao gồm các mô hình như ARIMA (AutoRegressive Integrated
Moving Average) và mô hình thống kê khác.

Dự Đoán Sản Lượng và Nhu Cầu:

Dự đoán lượng sản phẩm cần sản xuất trong tương lai dựa trên dữ liệu lịch
sử về sản xuất.

Điều này có thể hữu ích trong việc quy hoạch sản xuất và quản lý nguồn lực.

Dự Đoán Doanh Số Bán Hàng:

Dự đoán doanh số bán hàng của các sản phẩm thực phẩm để quyết định mức
tồn kho và chiến lược tiếp thị.

Dự Đoán Nhu Cầu Thực Phẩm Theo Mùa:

Nếu có dữ liệu thời gian về doanh số bán hàng theo mùa, bạn có thể sử dụng
gói "forecast" để dự đoán nhu cầu thực phẩm trong các mùa khác nhau.

Phân Tích Xu Hướng Thị Trường:

Dự đoán xu hướng thị trường cho các sản phẩm thực phẩm để xác định sự
thay đổi trong sở thích và ưa chuộng của người tiêu dùng.

Dự Đoán Nhu Cầu Vận Chuyển và Lưu Kho:

Dự đoán nhu cầu vận chuyển và lưu kho của các sản phẩm thực phẩm để
quản lý chuỗi cung ứng và giảm thiểu tồn kho.

Dự Đoán Hạn Sử Dụng và Chu kỳ Sản Xuất:

Dự đoán chu kỳ sản xuất và hạn sử dụng của sản phẩm thực phẩm để quản
lý quy trình sản xuất và giữ chất lượng sản phẩm.
Nếu bạn có một file dữ liệu nhiệt độ hàng giờ và muốn thực hiện phân tích hoặc
xây dựng mô hình ARIMA trong R, bạn có thể làm theo các bước sau:

Bước 1: Chuẩn bị Dữ Liệu

1. Đọc Dữ Liệu: Sử dụng hàm read.csv() hoặc các hàm tương tự để đọc dữ liệu từ
file CSV hoặc từ định dạng khác.

>temparature_data<-read.csv(“duong_dan_den_file.csv”)

2. Chuyển đổi thành Đối tượng Time Series: Đảm bảo rằng bạn đã chuyển đổi dữ
liệu của mình thành đối tượng ts để làm việc với chuỗi thời gian.
>ts_temperature <- ts(temperature_data$temperature_column, frequency = your_frequency)

Bước 2: Xây Dựng Mô Hình ARIMA

Xây Dựng Mô Hình ARIMA: Sử dụng hàm auto.arima() để tự động xác định
tham số phù hợp cho mô hình ARIMA.

>arima_model <- auto.arima(ts_temperature)

>print(arima_model)

Bước 3: Dự Đoán và Hiển Thị Kết Quả

Dự Đoán và Hiển Thị Kết Quả: Sử dụng mô hình để dự đoán giá trị trong tương lai
và hiển thị kết quả.

forecast_result <- forecast(arima_model, h = number_of_periods)

print(forecast_result)

plot(forecast_result)
Ví dụ phân tích đường kính của quả cam

library(forecast)

data(Orange)

ts_orange <- ts(Orange$circumference, start = c(1952, 1), frequency = 1)

plot(ts_orange, main = "Đường Kính Cam Orange qua Các Năm", xlab = "Năm",
ylab = "Đường Kính")

arima_model <- auto.arima(ts_orange)

forecast_result <- forecast(arima_model, h = 12) # Dự đoán 12 quan sát tiếp theo

print(forecast_result)

plot(forecast_result, main = "Dự Đoán Đường Kính Cam Orange")

lines(forecast_result$mean, col = "red")

legend("topright", legend = c("Dữ Liệu Gốc", "Dự Đoán"), col = c("black", "red"),
lty = 1:1)

You might also like