You are on page 1of 1

Phát hiện bất thường trong dữ liệu chuỗi thời gian sử dụng phép

phân tích thành phần chính

Mục tiêu: Mục tiêu của dự án này là triển khai một hệ thống phát hiện bất
thường cho dữ liệu chuỗi thời gian bằng cách sử dụng phép tích thành phần
chính (Principal Components Analysis - PCA). Dự án sẽ liên quan đến tiền xử lý
dữ liệu chuỗi thời gian, áp dụng PCA để giảm chiều dữ liệu, và sử dụng các
thành phần chính được trích xuất để phát hiện bất thường.

Yêu cầu:
Sinh viên tải dữ liệu theo đường link sau:
Đây là dữ liệu nhiệt độ theo thời gian của 1 văn phòng.
- Tìm hiểu về ngôn ngữ Python, làm quen với thư viện tính toán vector
nhiều chiều Numpy, thư viện quản lý dữ liệu theo dạng bảng Dataframe
của Pandas và thư viện vẽ đồ thị Matplotlib.
- Thực hiện phân tích và xử lý tín hiệu chuỗi thời gian thông qua Dataframe
và Numpy, trích xuất các thông tin quan trọng, làm mượt, chuẩn hóa,...
Trực quan hóa các kết quả bằng Matplotlib.
- Tìm hiểu lý thuyết về thuật toán PCA, triển khai thuật toán hoàn toàn bằng
Numpy.
- Áp dụng PCA lên dữ liệu (có thể tối ưu bằng phương pháp nhân từng cửa
sổ). Xác định số thành phần chính được giữ lại tối ưu dựa trên tỷ lệ
phương sai hoặc các tiêu chí khác do sinh viên tự thiết đặt.
- Thực hiện giảm chiều bằng cách giữ lại một tập con các thành phần chính
quan trọng nhất trong dữ liệu. Phục hồi dữ liệu chuỗi thời gian bằng cách
sử dụng các thành phần chính đã giữ lại và so sánh dữ liệu chuỗi thời gian
đã phục hồi với dữ liệu gốc để đánh giá chất lượng phục hồi.
- Xác định ngưỡng phát hiện bất thường phù hợp dựa trên sai số phục hồi
hoặc các chỉ số khác. Các trường hợp có sai số phục hồi vượt quá
ngưỡng được xác định sẽ được đánh dấu là điểm bất thường.
- Nêu ra cách đánh giá kết quả thu được.

You might also like