Professional Documents
Culture Documents
Bài 7 - Phát hiện bất thường
Bài 7 - Phát hiện bất thường
2
BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG
▰ Bài toán: Cho n điểm dữ liệu, tìm k điểm Chiều cao và Cân nặng
bất thường nhất
▰ Cần định nghĩa "bất thường":
▻ VD: Phần dư trong mô hình hồi quy lớn
▰ Các hướng tiếp cận:
▻ Dựa vào thống kê
▻ Dựa vào khoảng cách
▻ Dựa vào mật độ 4
PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ
▰ Ưu điểm
a. Nhanh, tính toán đơn giản
b. Có cơ sở lý thuyết xác suất thống kê
▰ Nhược điểm
a. Thường chỉ kiểm tra các đặc trưng đơn lẻ (1 cột của bảng)
b. Không phải lúc nào cũng có phân bố của dữ liệu
7
PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH
12
CHUỖI THỜI GIAN
13
PHÂN TÍCH CHUỖI THỜI GIAN: ĐỒ THỊ
▰ Sử dụng đồ thị
▻ Vẽ một hoặc nhiều chuỗi
thời gian
▻ Quan sát xu hướng
▻ Quan sát các thời điểm cần
khảo sát kỹ
14
PHÂN TÍCH CHUỖI THỜI GIAN: MÔ HÌNH DỰ ĐOÁN
16
GIÁ TRỊ TRUNG BÌNH
▰ Phần dư
▰ Kiểm tra
17
GIÁ TRỊ TRUNG BÌNH
18
GIÁ TRỊ TRUNG BÌNH
19
GIÁ TRỊ TRUNG BÌNH VÀ PHƯƠNG SAI
20
PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score
▰ Tính Z-score
21
PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score
▰ Tính Z-score
22
PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM
▰ Cắt các chuỗi tín hiệu bình thường thành các đoạn
▻ Cửa sổ có độ dài cố định bằng h
▰ Sử dụng k-means phân cụm
▰ Một tín hiệu bất kì
▻ Tách thành nhiều đoạn độ dài h
▻ Chuyển các đoạn thành tâm cụm gần nhất
23
PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM