Professional Documents
Culture Documents
1. Khái niệm
Time series data là dữ liệu được thu thập theo thời gian liên tục, trong đó các quan
sát được thực hiện theo các khoảng thời gian cố định. Điều này có nghĩa là mỗi
điểm dữ liệu trong chuỗi thời gian được đánh dấu bởi một thời điểm cụ thể. Các ví
dụ phổ biến của time series data bao gồm giá cổ phiếu hàng ngày, nhiệt độ hàng
giờ, doanh số bán hàng theo ngày, và các biến số khác theo thời gian.
Time series data thường được sử dụng để phân tích xu hướng, chu kỳ và biến động
theo thời gian. Các ứng dụng của time series data rất đa dạng, từ dự đoán doanh số
bán hàng tới phân tích chu kỳ kinh tế và đánh giá hiệu suất tài chính.
Phân tích time series data đòi hỏi sử dụng các phương pháp thống kê và mô hình
hóa thích hợp để hiểu và dự đoán các biến đổi theo thời gian. Các kỹ thuật phổ
biến bao gồm mô hình ARIMA (AutoRegressive Integrated Moving Average), các
mô hình dựa trên machine learning như Long Short-Term Memory (LSTM) trong
deep learning, và nhiều kỹ thuật khác.
Ví dụ: Nhà sản xuất muốn kiểm tra trung bình mỗi mẻ bia nồng độ cồn sẽ là bao
nhiêu:
SSE=0.089 và MSE=0.089/10=0.0089
Áp dụng cho dãy dữ liệu ổn định, không thay đổi nhiều, không có xu hướng theo
mùa:
Công thức:
A: Dữ liệu thực tế
∝: Hằng số liên tiến
Hằng số liên tiến (alpha) thể hiện độ đáp ứng đối với sự chênh lệch giữa dự đoán
và thực tế. Hằng số này được quyết định bởi bản thân của sản phẩm cũng như cảm
nhận của nhà quản lý. Chẳng hạn, một nhà sản xuất một sản phẩm mà nhu cầu
tương đối ổn định thì tỷ lệ đáp ứng với sự chênh lệch giữa dự đoán và thực tế sẽ
nhỏ. Nếu nhu cầu tăng trưởng nhanh, tỷ lệ này sẽ tăng cao. Hằng số này có giá trị
từ 0 đến 1. Ðể tìm số alpha chính xác nhất thì phảI dùng phương pháp thử sai,
alpha sẽ là giá trị mà làm cho độ lệch trị tuyệt đốI trung bình (Mean Absolute
Deviation-MAD) là nhỏ nhất.
MAD được tính bằng trung bình cộng của độ lệch giữa dự đoán và thực tế, sau khi
đã lấy trị tuyệt đối.
2.3 Phương pháp tiên tiến lũy thừa kép :
Khi tồn tại một xu hướng, có thể xu hướng tăng hoặc giảm, thì kết quả dự đoán
bằng phương pháp liên tiến lũy thừa đơn luôn luôn lệch xa so với thực tế, có thể
thấp hơn hoặc cao hơn. Phương pháp liên tiến lũy thừa kép đã giảI quyết được vấn
đề này bằng cách sử dụng hai hằng số. Hằng số alpha thì đã trình bày ở trên. Hằng
số beta sẽ làm giảm ảnh hưởng của sai số xảy ra giữa thực tế và dự đoán do tồn tại
xu hướng lên xuống.
Hai hằng số này nằm trong giá trị từ 0 đến 1. Tương tự, để tính chính xác nhất
alpha và beta thì dùng phương pháp thử sai. Số alpha và beta sẽ là trị giá để cho độ
lệch trị tuyệt đối trung bình (MAD) và độ lệch phần trăm trị tuyệt đối trung bình
(Mean Absolute Percentage Error-MAPE) nhỏ nhất.
Trong R Studio, có nhiều gói phần mềm và chức năng hỗ trợ xử lý và phân tích
time series data. Dưới đây là một số gói và cách sử dụng chúng:
R có nhiều chức năng cơ bản hỗ trợ xử lý time series data, như hàm ts() để tạo đối
tượng time series và các hàm như plot() để vẽ biểu đồ.
Gói forecast chứa các chức năng cho việc dự đoán time series data, Gói phần mềm
"forecast" trong R là một gói mở rộng được sử dụng để mô hình hóa và dự đoán
chuỗi thời gian. Gói này cung cấp các công cụ hữu ích cho việc xử lý và phân tích
time series data, bao gồm các mô hình như ARIMA (AutoRegressive Integrated
Moving Average) và mô hình thống kê khác.
Dự đoán lượng sản phẩm cần sản xuất trong tương lai dựa trên dữ liệu lịch
sử về sản xuất.
Điều này có thể hữu ích trong việc quy hoạch sản xuất và quản lý nguồn lực.
Dự đoán doanh số bán hàng của các sản phẩm thực phẩm để quyết định mức
tồn kho và chiến lược tiếp thị.
Nếu có dữ liệu thời gian về doanh số bán hàng theo mùa, bạn có thể sử dụng
gói "forecast" để dự đoán nhu cầu thực phẩm trong các mùa khác nhau.
Dự đoán xu hướng thị trường cho các sản phẩm thực phẩm để xác định sự
thay đổi trong sở thích và ưa chuộng của người tiêu dùng.
Dự đoán nhu cầu vận chuyển và lưu kho của các sản phẩm thực phẩm để
quản lý chuỗi cung ứng và giảm thiểu tồn kho.
Dự đoán chu kỳ sản xuất và hạn sử dụng của sản phẩm thực phẩm để quản
lý quy trình sản xuất và giữ chất lượng sản phẩm.
Nếu bạn có một file dữ liệu nhiệt độ hàng giờ và muốn thực hiện phân tích hoặc
xây dựng mô hình ARIMA trong R, bạn có thể làm theo các bước sau:
1. Đọc Dữ Liệu: Sử dụng hàm read.csv() hoặc các hàm tương tự để đọc dữ liệu từ
file CSV hoặc từ định dạng khác.
>temparature_data<-read.csv(“duong_dan_den_file.csv”)
2. Chuyển đổi thành Đối tượng Time Series: Đảm bảo rằng bạn đã chuyển đổi dữ
liệu của mình thành đối tượng ts để làm việc với chuỗi thời gian.
>ts_temperature <- ts(temperature_data$temperature_column, frequency = your_frequency)
Xây Dựng Mô Hình ARIMA: Sử dụng hàm auto.arima() để tự động xác định
tham số phù hợp cho mô hình ARIMA.
>print(arima_model)
Dự Đoán và Hiển Thị Kết Quả: Sử dụng mô hình để dự đoán giá trị trong tương lai
và hiển thị kết quả.
print(forecast_result)
plot(forecast_result)
Ví dụ phân tích đường kính của quả cam
library(forecast)
data(Orange)
plot(ts_orange, main = "Đường Kính Cam Orange qua Các Năm", xlab = "Năm",
ylab = "Đường Kính")
print(forecast_result)
legend("topright", legend = c("Dữ Liệu Gốc", "Dự Đoán"), col = c("black", "red"),
lty = 1:1)