Professional Documents
Culture Documents
Leader
C ấu
trúc
02 Phân loại mã độc
03 Overfitting
01
Khái niệm cơ bản
Khái niệm
Mỗi điểm dữ liệu bao gồm nhiều đặc trưng (feature) khác nhau, mỗi
feature thường được biểu diễn dưới dạng một con số.
Chúng ta thường biểu diễn một điểm dữ liệu như một vector trong đó mỗi
phần tử là một đặc trưng, vector này thường được gọi là vector đặc trưng
(feature vector).
Nhiệm vụ
Regression Clustering
Completion Ranking
Phép đánh giá
Để kiểm tra năng lực của một thuật toán machine learning, chúng ta cần
phải thiết kế các phép đánh giá có thể đo đạc được kết quả.
Dữ liệu thường được chia thành hai phần riêng biệt: tập huấn luyện
(training set) và tập kiểm thử (test set). Tập kiểm thử được dùng để đánh giá
năng lực của mô hình tìm được.
Kinh nghiệm
Việc huấn luyện các mô hình machine learning có thể coi là việc cho
chúng trải nghiệm trên các tập dữ liệu (dataset)–chính là training set. Chất
lượng của các tập dữ liệu này cũng ảnh hưởng tới hiệu năng của mô hình
Dựa trên tính chất của các tập dữ liệu, các thuật toán machine learning có thể
phân loại thành hai nhóm chính là học không giám sát (unsupervised learning)
và học có giám sát (supervised learning).
Kinh nghiệm
Mô hình quá chú trọng vào việc xấp xỉ training set mà quên đi việc
quan trọng hơn là tính tổng quát, khiến cho mô hình không thực sự
mô tả tốt dữ liệu ngoài training set.
Overfitting đặc biệt xảy ra khi lượng dữ liệu huấn luyện quá
nhỏ hoặc độ phức tạp của mô hình quá cao.
Giới thiệu
Phòng tránh overfitting
Training error: Đại lượng này là mức độ sai khác giữa đầu ra thực
và đầu ra dự đoán của mô hình, thường là giá trị của hàm mất mát áp
dụng lên training data.
Test error: Tương tự như trên, nhưng mô hình tìm được được áp
dụng vào test data.
Một mô hình được coi là tốt (fit) nếu cả training error và test error
đều thấp. Nếu training error thấp nhưng test error cao, ta nói mô hình bị
overfitting. Nếu training error cao và test error cao, ta nói mô hình bị
underfitting.
Kỹ thuật phòng tránh overfitting
Regularization
Validation
Cross-validation
Validation
Cross-validation
Cross-validation là một cải tiến của validation với lượng dữ liệu trong
validation set là nhỏ nhưng chất lượng mô hình được đánh giá trên nhiều
tập validation khác nhau.
Một cách thường được sử dụng là chia training set ra k tập con không giao
nhau, có kích thước gần bằng nhau. Tại mỗi lần, một trong số k tập con
được lấy ra làm validation set.
Regularization
Regularization, một cách dễ hiểu, là thay đổi mô hình một chút, chấp nhận
hy sinh độ chính xác trong training set, nhưng giảm độ phức tạp của mô
hình, giúp tránh overfitting trong khi vẫn giữ được tính tổng quát của nó.
Chương
P h3
ương pháp phát
hiện mã độc dựa trên
học máy
01 Một số thuật toán học máy cơ bản
Nộ i
Mô hình phát hiện mã độc
dung 02
Nhược điểm
KNN rất nhạy cảm với nhiễu khi K nhỏ.
Khái niệm – K-means
PCAP là một tài nguyên có giá trị để phân tích tệp và theo dõi lưu lượng
mạng của bạn.
Giám sát việc sử dụng băng thông, xác định máy chủ DHCP giả mạo,
phát hiện phần mềm độc hại, giải pháp DNS và phản ứng sự cố.
Một số ứng dụng phổ biến có thể mở tệp .pcap là Wireshark, WinDump,
tcpdump, …
Thu thập dữ liệu mạng
https://www.malware-traffic-analysis.net/training-exercises.html
Cuckoo Sandbox
Bộ dữ liệu KDD99
KDD99 được tạo ra năm 1999 bởi MIT Lincoln Labs. Nó được thu thập trong 9
tuần trong các mạng LAN giả lập mạng U.S. Air Force.
Dữ liệu gốc (raw) chứa khoảng 4 GB các dữ liệu nhị phân TCP Dump của
traffice mạng trong 7 tuần.
Tập dữ liệu huấn luyện có 4.898.431 vectơ kết nối đơn, mỗi vectơ có 41 thuộc
tính và được dán nhãn là bình thường hoặc một cuộc tấn công một cách chính
xác với một kiểu tấn công cụ thể.
Các dạng tấn công
Denial of Service (DoS): kẻ tấn công làm cho các tài nguyên tính toán hoặc bộ
nhớ quá tải để xử lý các yêu cầu hợp lệ, hoặc từ chối người dùng hợp lệ truy
cập máy.
Remote to Local (R2L) : kẻ tấn công tuy không có tài khoản nhưng có khả
năng gửi các gói tin đến một máy qua mạng, sẽ khai thác một số lỗ hổng để
đạt được quyền truy cập cục bộ như là người sử dụng của máy đó.
User to Root (U2R): kẻ tấn công bắt đầu với một quyền truy cập bình thường
và sau đó khai thác một số lỗ hổng để đạt được quyền truy cập root trên hệ
thống.
Probe: kẻ tấn công nỗ lực thu thập thông tin về mạng máy tính nhằm phá vỡ
khả năng kiểm soát an ninh của nó.
Bộ dữ liệu KDD99
Các kỹ thuật tấn công
Các kỹ thuật tấn công
Các thuộc tính
Các thuộc tính
Mô hình thực thi với KDD99
Bộ trích xuất dữ liệu
Chạy thực nghiệm và đưa ra cảnh báo
Thank you