HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHÊ THÔNG TIN I

BÁO CÁO THỰC TẬP

Giảng viên hướng dẫn : TS. Hoàng Xuân Dậu Sinh viên : Đào Thanh Tùng Lớp : D08CNPM1

HÀ NỘI, 7/2012

I.Giới thiệu
Thiết kế và cái đặt hệ thống phát hiện đột nhập là một vấn đề nghiên cứu quan trọng trong an toàn mạng. Các hệ thống phát hiện đột nhâp được học và đề xuất gặp phải các thách thức trong môi trường internet. Không phải là sự thổi phòng trạng thái mà một hệ thống phát hiện đột nhập phải là một hệ thống hiện đại. Kĩ thuật phát hiện đột nhập có thể chia thành 2 nhóm : phát hiện sai và phát hiện dị thường. Phát hiện sai nhận ra các các hành động đột nhập dựa trên các hành vi đã biết từ quá trình phát triển. Phát hiện sai tương tự các phần mềm diệt vi rút. Chúng so sánh dữ liệu với cơ sở dữ liệu virus có sẵn. Phát hiện sai là tập hợp các hành vi tấn công từ cơ sở dữ liệu thuộc tính. Do đó chúng có hạn chế không thể phát hiện đột nhập mới xảy ra ví dụ các sự kiện chưa xảy ra bao giờ. Phát hiện di thường khác biệt so với phát hiện sai. Phát hiện dị thường dựa trên phân tích dữ liệu các sự kiện và nhận ra các mẫu của các hành động xuất hiện một cách bình thường. Nếu một sự kiện xảy ra ngoài mẫu, chúng được báo cáo như một xâm nhập. Có thể xem phương pháp này là phương pháp tiếp cận nửa học máy. Có nhiều kĩ thuật học máy được sử dụng phát hiện đột nhập dị thường. Qiao giới thiệu một phương pháp phát hiện đột nhập dựa vào mô hình ẩn của Markov để phân tích tập dữ liệu UNM. Lee thiết lập mô hình phất hiện đột nhập kết hợp luật kết hợp và logic mờ điều chế mãu cho phất hiện dột nhâp. Mohajeran phát triển hệ thống phát hiện đôt nhập kết hợp mạng nơron và logic mờ phân tích tập dữ liệu KDD, Wang áp dụng thuật toán di truyền dánh giá hàm thành viên cho khai phái mờ luật kết hợp. SVM (SVM) là một kĩ thuật phổ biến cho phát hiện đột nhâp dị thường. SVM huấn luyện vector vào không gian đặc trưng có số chiều lớn hơn, gán nhãn mỗi vector vào các lớp. SVM phân loại dữ liệu bởi giới hạn một tập vector hỗ trợ chúng là thành viên của tập dữ liệu huấn luyện nằm trên lề siêu phẳng của không gian đặc trưng. SVM cung cấp một cơ chế chung để phù hợp với bề mặt siêu phẳng dữ liệu thông qua hàm nhân. Có nhiều hàm (tuyến tính, đa giác, xích ma) cho SVM trong quá trình huấn luyện, lựa chọn vector hỗ trợ theo bề mặt của hạt nhân. Lý do SVM cho phát hiện đột nhâp. Thứ nhát là tốc độ : hiệu suất thời gian thực là yếu tố quan trọng hàng đầu cho hệ thống phát hiện đột nhập, Thứ hai là khả năng mở rộng : SVM là tương đối không nhảy cảm với số lượng các điểm dữ liệu và phân loại phưc tạp không phụ thuộc vào chiều của không gian vì vậy có khă năng học tập lớn các mẫu.

II.Nội dung
SVM được giới thiệu bởi V.Vapnik và các đồng nghiệp của ông vào những năm 1970 ở Nga và sau đó đã phổ biến vào những năm 1990. SVM có những đặc điểm làm cho nó trở thành một trong những thuật toán phổ biến nhất. Không chỉ có nền tảng lý thuyết chắc mà còn thực hiện phân loại chính xác so với hầu hết các thuật toán khác trong nhiều ứng dụng đặc biết các ứng dụng liên quan đến dữ liệu nhiều chiều. Ý tưởng của phương pháp : cho trước một tập huấn luyện được biểu diễn trong không gian vector. Phương pháp tìm ra một siêu phẳng f quyết định tốt nhất có thể chia các điểm trên không gian thành hai lớp tương ứng là lớp + và lớp -. Chất lượng của siêu phẳng này được quyết đỉnh bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt

phẳng này. Khi đó, khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt, đồng thời việc phân loại càng chính xác. Cho tập hợp các ví dụ huấn luyện D ( )( ) ( ) Với

) là một vector đầu vào r chiều trong không gian giá trị thực , là nhãn lớp (giá trị đầu ra) và {1, -1}. 1 biểu thị lớp dương và -1 biểu thị lớp âm.

(

Để xây dựng một phân loại, SVM tìm một hàm tuyến tính có dạng sau : (1) 0, và lớp âm nếu ngược lại,

vì vậy vector đầu vào xi được gán vào các lớp dương nếu f(xi) tức là,

(2) F(x) là một hàm giá trị thực được gọi là vector trọng số. b được gọi là độ dịch chuyển <w.x> là dot product của w and x. Phương trình (1) được viết như sau: (3) Với là biến biểu diễn tọa độ thứ i của vector x. Bản chất SVM tìm các siêu phẳng: (4) để chia các mẫu huấn luyện thành dương và âm. Siêu phẳng này được gọi là đường biên quyết định hoặc bề mặt quyết định. Về mặt hình học, siêu phẳng <w.x> + b=0 phân chia không gian đầu và othành hai nửa không gian: một nửa cho các mẫu dương và một nửa khác cho các mẫu âm. Nhớ lại rằng siêu phẳng thường được gọi là một đường trong một không gian 2-chiều và một plane trong một không gian 3 chiều. Hình 1 cho thấy một ví dụ trong một không gian 2 chiều. Mẫu dương được biểu diễn bởi hình chữ nhật đặc nhỏ, và mẫu âm được biểu diễn bởi hình tròn rỗng nhỏ. Đường dày ở giữa là các siêu phẳng biên quyết định (một đường trong trường hợp này), nó chia các điểm dữ liệu dương (phía trên đường) và âm (phía dưới đường). Phương trình (1), gọi là quy tắc quyết định của phân lớp SVM, được sử dụng để tạo quyết định phân lớp trên các trường hợp thử nghiệm.

Hình 1 (A) A là một đường thẳng chia tập dữ liệu và (B) các biên quyết dịnh có thể

1.SVM tuyến tính : trường hợp có thể chia
Phần này nghiên cứu trường hợp đơn giản của SVM tuyến tính. Nó giả thiết rằng các dữ liệu dương và âm là có thể chia tuyến tính. Theo đại số tuyến tính, chúng ta biết rằng trong <w.x> + b = 0, w định nghĩa một đường pháp tuyến với siêu phẳng (xem hình 2). Không thay đổi vector chuẩn w, biến b di chuyển siêu phẳng song song với chính nó. Cũng lưu ý rằng <w.x> + b = 0 có một mức độ tự do vốn có. Chúng ta có thể thay đổi tỉ lệ các siêu phẳng thành mà không thay đổi hàm/ siêu phẳng.

Hình 2 Siêu phẳng phân chia và lề của của SVM : Vector hỗ trợ khoanh tròn Khi SVM đạt cực đại lề giữa các điểm dữ liệu dương và âm, hãy tìm lề đó. Gọi d+ là khoảng cách ngắn nhất từ siêu phẳng để chia tới các điểm dữ liệu dương gần nhất, d- là khoảng cách ngắn nhất từ siêu phẳng để chia tới các điểm dữ liệu âm gần nhất. Khi đó lề của siêu phẳng để chia là (d+)+(d-). SVM tìm siêu phẳng để chia với lề lớn nhất, còn gọi là lề siêu phẳng cực đại, làm đường biên quyết định. Hãy chú ý đến các điểm dữ liệu dương ( ) và âm ( ) mà gần siêu phẳng nhất . Chúng ta định nghĩa hai siêu phẳng, và , mà đi qua và . và cũng là song song với <w.x> +b=0. Chúng ta có thể thay đổi tỉ lệ w và b để thu được: (5) (6)

Cái mà cho biết rằng không có dữ liệu huấn luyện nào rơi vào giữa các siêu phẳng và . Bây giờ ta cùng tính toán khoảng cách giữa hai lề siêu phẳng và . Khoảng cách là lề ((d+)+(d-)). Theo không gian vector trong đại số tuyến tính thì khoảng cách Euclidena từ điểm xi tới một siêu phẳng <w.x>+b=0 là: (7)

Với

là chuẩn của véc tơ w,

(8) Để tính d+ , thay vì tính khoảng cách từ tới siêu phẳng chia <w.x> +b=0, chúng ta lấy một điểm trên <w.x> +b=0 và tính khoảng cách từ trên <w.x> +b=0 và tính khoảng cách từ tới <w. > +b=1 bằng cách áp dụng phương trình (40) và chú ý rằng <w. > +b=0,

(9) Tương tự , ta có thể tính khoảng cách từ tới <w. > +b=-1 để thu được Do đó, đường quyết định (<w.x> +b=0 ) nằm giữa hai đường và , khi đó : .

(10) SVM tìm siêu phẳng để chia mà lề đạt được cực đại, điều này đưa ra một vấn đề đánh giá. Giá trị lề cực đại tương tự như cực tiểu giá trị . Mô tả SVM có thể chia tuyến tính như sau: Định nghĩa (Linear SVM: Separable Case): Với một tập các mẫu huấn luyện có thể chia tuyến tính , quá trình học là giải quyết cực tiểu hóa ràng buộc sau: (11)

Ràng buộc

được tổng quát hóa như sau:

Giải quyết vấn đề (11) sẽ tạo ra các giải pháp cho w và b. Kể từ khi hàm mục tiêu là bậc hai và lồi và các ràng buộc là tuyến tính trong các thông số w và b, chúng ta có thể sử dụng phương pháp hệ số nhân Lagrange chuẩn để giải quyết nó. Thay vì đánh giá hàm mục tiêu, ta cần đánh giá Lagrangian của vấn đề,nó xem xét các ràng

buộc cùng một lúc. Cần quan tâm đến các ràng buộc là rõ ràng bởi vì chúng giảm bớt các giải pháp khả thi. Khi ràng buộc bất đẳng thức được biểu diễn sử dụng “ ”, các Lagrange được xây dựng bằng cách các ràng buộc được nhân với các hệ số nhân dương và được trừ vào hàm mục tiêu, cụ thể là:

(12) trong đó 0 là các hệ số nhân lagrange. Lí thuyết đánh giá nói rằng một giải pháp đánh giá cho biểu thức phải thỏa mãn các điều kiện nhất định, được gọi là các điều kiện Kunhn- Tucker, nó giữ vai trò quan trọng trong đánh giá ràng buộc. Ở đây, ta giới thiệu tóm tắt các điều kiện này. Các vấn để tổng quá hóa là :

(13) Trong đó f là hàm mục tiêu và la hàm ràng buộc. Lagrangian của (13) là,

(14) Một giải pháp đánh giá vấn đề trong (13) phải thỏa mãn các điều kiện cần thiết (nhưng chưa đủ) sau :

(15) (16) (17) (18) Các điều kiện này được gọi là các điều kiện Kuhn-Tucker, chú ý rằng (16) là tập các ràng buộc bản đầu có trong (13). Điều kiện (18) được gọi là điều kiện bổ sung, nó ngụ ý rằng tại điểm giải quyết :

Để cực tiểu vấn đề (11), các điều kiện Kuhn-Tucker là :

(19)

(20)

(21) (22) (23) Bất đẳng thức (21) là tập các ràng buộc ban đầu. lưu ý rằng mặc dù có một hệ số nhân Lagrange i cho mỗi điểm dữ liệu huấn luyện, điều kiện bổ sung (23) cho thấy rằng chỉ những điểm dữ liệu nằm trên mép siêu phẳng (tức là, H + và H-) có thể có i> 0 mà làm cho yi ( w  xi  + b)- 1 = 0. Những điểm dữ liệu được gọi là vectơ hỗ trợ. Tất cả các điểm dữ liệu khác có i = 0. Bất đẳng dối ngẫu của phương trình căn bản (11) là: (24)

Sau khi giải quyết vấn đề (24) ta thu được các giá trị của , chúng được dùng để tính các vector trọng số w độ lệch b sử dụng các đẳng thức (19) và (23). Thay vì phụ thuộc vào một vector hỗ trợ ( i> 0) để tính b, trong thực tế tất cả các vector hỗ trợ được sử dụng để tính b, sau đó đưa ra giá trị trung bình của chúng làm giá trị cuối cùng của b. Đường biên quyết định cuối cùng là :

(25) Trong đó sv là tập các chỉ số của không gian vector trong dữ liệu hấn luyện. Testing : chúng ta áp dụng (25) để phân lớp. với một tập các thể hiện z, chúng phân loại nó sử dụng cái sau :

(26) Nếu (26) trả về 1, z được phân vào lớp dương ngược lại thì z được chia vào lớp âm.

2.SVM tuyến tính: Trường hợp không thể chia
Trường hợp chia tuyến tính là tình huống lý tưởng. Tuy nhiên trong thực tế, dữ liệu huấn luyện hầu như luôn bị nhiễu , tức là chứa các lỗi vì nhiều lí do khác nhau. Chẳng hạn, một số mẫu có thể được gán nhãn không chính xác. Hơn nữa các vấn đề thực tế có thể có một số mức độ ngẫu nhiên. Ngay cả đối với hai vector đầu vào giống hệt nhau, nhãn của chúng có thể khác nhau. Để SVM là hữu dụng, nó phải cho phép nhiễu trong các dữ liệu huấn luyện. Tuy nhiên, với dữ liệu nhiễu thì SVM chia tuyến tính sẽ không tìm ra một hướng giải pháp nào bởi vì các ràng buộc không thể đạt được. Chẳng hạn, trong hình 3, có một điểm âm trong miền dương, và có

một điểm dương trong miền âm. Một cách rõ ràng hơn, không có giải pháp có thể được tìm thấy cho vấn đề này. Nhớ lại rằng nền tảng cho trường hợp chia tuyến tính là:

(27)
Để cho phép lỗi trong dữ liệu, chúng ta có thể nới lỏng các rằng buộc lề dc bẳng cách đưa ra các biến slack, ( ) như sau:

Do đó chúng ta có các rằng buộc mới :

Biểu diễn hình học được minh họa trong hình 3, ở đây có hai điểm dữ liệu lỗi khoanh tròn) trong miền không chính xác.

,

(được

Hình 3 Trường hợp không phân chia đúng Chúng ta cũng cần để ý các lỗi trong hàm mục tiêu. Một cách thông thường là gán một giá trị mở rộng cho các lỗi để thay đổi hàm mục tiêu để:

(28)
Với C là một tham số được quy định bởi người dùng. K=1 được sử dụng phổ biến, nó có tiến bộ là không phải mà cũng không phải hệ số nhân Lagrangian của nó xuất hiện trong biểu thức đối ngẫu. Ta chỉ quan tâm thảo luận trường hợp k=1 ở phía dưới đây. Vấn đề đánh giá mới trở thành:

(29)

Công thức này được gọi là lề mềm SVM. Lagrangian cơ bản (biểu diễn bởi này như sau:

) của biểu thức

(30)

Trong đó, , điều kiện sau :

là các hệ số nhân Lagrange. Điều kiện Kuhn-Tucker tốt nhất là những

(31)

(32) (33) (34) (35) (36) (37) (38) (39) Trong trường hợp chia tuyến tính, sau đó ta chuyển biểu thức ban đầu sang biểu thức đối ngẫu bằng cách thiết lập về zero các dẫn xuất một phần của Largangian (30) đối với các biến ban đầu (tức là w,b và ), và thay thế các kết quả liên quan trở lại Lagrangian. Đó là, chúng ta thay thế phương trình (31), (32), và (33) vào Lagrangian ban đầu (30). Từ đẳng thức (33), C- = 0, chúng ta có thể suy ra rằng của (29) là : C bởi vì 0. Do đó, biểu thức đối ngẫu

(40)

Vấn đề đối ngẫu (40) cũng có thể được giải quyết về số lượng, và các giá trị kết quả sau đó được sử dụng để tính w và b. W được tính sử dụng phương trình (31) và b được tính sử dụng điều kiện bổ sung Kuhn-Tucker (38) và (39), nếu 0 < <C thì cả =0 và ( ) – 1 + = 0. Do đó có thể sử dụng vài điểm dữ liệu huấn luyện mà 0 < <C và phương trình (38) (với = 0.) để tính toán b :

(41) Nhắc lại, do lỗi con số, ta có thể tính tất cả các khả năng của b và sau đó lấy giá trị trung bình của chúng làm giá trị b cuối cùng. Chú ý rằng phương trình (33), (38) và (39) trong thực tế cho ta biết : (42)

Tương tự với các support vector cho trường hợp có thể chia, (42) đưa ra một trong các đặc tính quan trọng nhất của SVM : giải pháp là rời rạc . Đa số các điểm dữ liệu huấn luyện là nằm ngoài vùng mép và của chúng trong hướng giải pháp bằng 0. Chỉ những điểm dữ liệu đó là nằm trên mép (cụ thể (<w. >+b)=1, là các support vector trong trường hợp có thể chia), hoặc các lỗi là khác zero. Nếu không có thuộc tính rời rạc này , SVM sẽ không thực hiện cho bộ dữ liệu lớn. Đường quyết định cuối cùng là :

(43) Luật quyết định cho phân lớp (testing) giống như trường hợp có thể chia, cụ thể là sign(<w.x> +b). Lưu ý rằng cả phương trình (43) và (41) thì không cần được tính toán cụ thể. Chủ yếu dành cho sử dụng các hàm nhân để xử lí các đường biên quyết định không tuyến tính. Cuối cùng, ta vẫn có một vấn đề là xác định tham số C. Giá trị của C thường chọn bởi thử một dãy các giá trị trên bộ dữ liệu huấn luyện để xây dựng bộ phân loại đa lớp và sau đó test chúng trên bộ dữ liệu xem xét, trước khi chọn một cái mà đưa ra kết quả phân loại tốt nhất trên bộ dữ liệu xem xét. Xem xét chéo là được sử dụng phổ biến như vậy.

3.SVM phi tuyến tính : hàm nhân
Ở hai trường hợp các mẫu dương và âm có thể được tách tuyến tính, tức là đường biên quyết định phải là một siêu phẳng. Tuy nhiên đối với nhiều bộ dữ liệu thực tế, các đường biên quyết định là không tuyến tính. Để giải quyết với dữ liệu chia không tuyến tính công thức tương tự và các kĩ thuật giải quyết như đối với trường hợp tuyến tính vẫn được sử dụng. Ta chỉ chuyển dữ liệu đầu vào từ không gian ban đầu của nó sang không gian khác (thường là không gian có số chiều nhiều hơn) do đó một đường biên quyết định tuyến tính có thể chia các mẫu dữ liệu dương và âm trong không gian sau khi chuyển đổi, cái mà được gọi là

không gian đặc trưng. Ý tưởng cơ bản là ánh xạ dữ liệu từ không gian X đầu vào sang không gian đặc trưng F thông qua một phép ánh xạ không tuyến tính ,

(44)

Sau khi ánh xạ bộ dữ liệu huấn luyện ban đầu {( ,

), ( ,

), …,(

,

)} trở thành: (45)

Phương pháp giải quyết SVM tuyến tính như vậy sau đó được áp dụng vào không gian F. Hình 4 mô tả xử lí như vậy. Trong không gian đầu vào (hình bên trái), các mẫu dữ liệu huấn luyện không thể chia tuyến tính. Trong không gian đặc trưng đã thay đổi (hình bên phai), chúng có thể được chia tuyến tính.

Hình 4 Chuyển đổi từ không gian đầu vào X sang không gian đặc trưng F Với sự chuyển đổi này, vấn đề đánh giá trong (11) trở thành: (46)

Biểu thức đối ngẫu tương ứng của nó là:

(47)

Luật quyết định cuối cùng cho phân lớp (testing) là:

(48) Ví dụ: giả sử không gian đầu vào của ta là 2 chiều, và ta cần chọn phép chuyển đổi sau:

(49) Mẫu huấn luyện ((2,3),-1) trong không gian đầu vào được chuyển đổi sang mẫu huấn luyện trong không gian đặc trưng như sau: ((4,9,8,5),-1) Vấn đề tiềm ẩn với cách tiếp cận chuyển dổi dữ liệu đầu vào này sang không gian đặc trưng và sau đó áp dụng SVM tuyến tính là có thể bị thiếu chiều. Số lượng chiều trong trong không gian đặc trưng có thể rất lớn với các phép chuyển đổi hữu ích ngay cả với số lượng thuộc tính trong không gian đầu vào hợp lí. Điều này làm cho nó tính toán không khả thi để xử lí. Thay vì , biến đổi rõ ràng có thể được tránh nếu chúng ta chú ý rằng biểu diễn đối ngẫu cả cách xây dựng siêu phẳng đánh giá (48 ) trong F và đánh giá hàm quyết định/phân lớp tương ứng (84) chỉ yêu cầu đánh tích vô hướngs < ( ) ( )> và không bao giờ được ánh xạ vector ( ) trong dạng tường minh cảu nó. Do vậy. nếu chúng ta có một cách tính toán tích vô hướng < ( ) ( )> trong không gian đặc trưng F sử dụng vector đầu vào ( ) hoặc ngay cả ánh xạ hàm chức năng của chính nó. Trong SVM, điều này được thực hiện thông qua việc sử dụng hàm nhân, biểu diễn bởi K, (50) Đây là các hàm chức năng chính xác để tính toán các tích vô hướng trong không gian đặc trưng đã chuyển đổi sử dụng vector x và z. một ví dụn của hàm nhân là nhân đa thức (51) Ví dụ 19: ta cùng tính nhân này với d=2 triong một không gian 2 chiều. x=(x1,x2) và z=(z1, z2).

(52)

Với ( )=( , , ), cho biết nhân là một tích vô hướng trong không gian đặc trưng đã chuyển đổi. Số lượng chiều trong không gian đặc trưng là 3. Lưu ý rằng ( ) là hàm ánh xạ thực sử dụng trong ví dụ . Một cách ngẫu nhiên, nói chung số lượng các chiều trong không gian fature cho hàm nhân đa thức là , là một số lượng lớn ngay cả với một số lượng hợp lý (r) của các thuộc tính trong không gian đầu vào. May mắn thay, bằng cách sử dụng hàm nhân (51), số lượng các chiều trong không gian đặc trưng không quan trọng. Các dẫn xuất trong (52) là chỉ cho mục đích minh họa. Trong thực tế, ta không cần phải tìm thấy các hàm ánh xạ. ta chỉ đơn giản là có thể áp dụng các hàm nhân trực tiếp. Đó là, chúng ta thay thế tất cả các tích vô hướng  (x)  (z)  trong (47) và (48) với hàm nhân K (x, z) (ví dụ, nhân đa thức trong (51). Chiến lược trực tiếp này cách sử dụng một hàm nhân để thay

thế tích vô hướng trong không gian đặc trưng được gọi là nhân trick. Chúng ta không bao giờ biết rõ ràng là gì.Tuy nhiên, câu hỏi là, làm thế nào để chúng ta biết liệu có hay không một hàm là một KerNel mà không thực hiện phép lấy đạo hàm như thế trong (52)? Đó là, làm thế nào chúng ta biết rằng một hàm nhân thực sự là một tích vô hướng trong một số không gian đặc trưng? Câu hỏi này được trả lời bởi một định lý được gọi là lí thuyết Mercer Rõ ràng rằng ý tưởng của nhân tổng quát hóa tích vô hướng trong một số không gian đầu vào. Tích vô hướng cũng là một nhân với phép ánh xạ đặc trưng là xác định (53)

Thông thường sử dụng các kernel bao gồm

(54) (55)

4.Cải tiến SVM với trọng số đặc trưng
Các hàm nhân thường được sử dụng là hàm tuyến tính, hàm đa thức, hàm bán kính cơ bản, hàm xích ma. Tuy nhiên các hàm đó không xem xét sự khác biệt giữa các đặc trưng của dữ liệu. Từ hàm nhân tổng quát ( ) có thể thấy rằng dữ liệu huấn luận và test tương đương. Xử lý các đặc trưng tương đương là không hiệu quả và làm giảm độ chính xác của SVM. Một giải pháp được JingTao Yao, Songlun Zhao, and Lisa Fan đề xuất xem xét tầm quan trọng của các đặc trưng bằng cách them trọng số của hàm nhân. Trọng số được sử dụng để đánh giá tầm quan trọng của mỗi đặc trưng. Công thức của hàm nhân mới ( ) trong đó w là một vector gồm cố trọng số của đặc trưng của tập dữ liệu. Khi đó hàm biệt thức phi tuyến tính với trọng số đặc trưng

Nhân cải tiến này là độc lập với hàm nhân đặc biệt. Với các ứng dụng khác nhau, có thể chọn hàm nhân thích hợp áp dụng trọng số đặc trưng. Chúng ta sử dụng lý thuyết tập thô ddeeer tính toán và khởi tao trọng số từ dữ liệu huấn luyện. Nguyên lý cơ bản để tính toán trọng lượng là : 1. Nếu một đặc trưng không có trong reducts nào thì trọng lượng của đặc trưng bằng 0; 2. Một đặc trưng càng xuất hiện trong nhiều trong reduct thì đặc trưng đó càng quan trongj 3. Một reduct có càng ít số đặc trưng thì tâm quan trọng của đặc trưng trong reduct này càng cao. Nếu một reduct chỉ có duy nhất một đặc trưng thì đặc trưng trong reduct này là quan trọng nhất.

Dựa trên nguyên lý trên , JingTao Yao, Songlun Zhao, and Lisa Fan đề xuất một thuật toán dung lý thuyết tập thô để xếp hạng đặc trưng và tính toán trọng số đặc trưng. Sau quá trình xếp hạng đặc trưng, xem xét những đặc trưng với trọng số là 0 là đặc trưng ít quan trọng nhất và xóa chúng. Trong thuật toán, xếp hạng và lựa chọn đặc trưng điều khiển trong cùng 1 quá trình.

4. Các tiêu chí đánh giá
Trong 1 số trường hợp chỉ quan tâm đến một lớp như trong phân loại văn bản và ứng dụng Web. Ví dụ quan tâm đến tài liệu hoặc các trang web của một chủ đề cụ thể. Ngoài ra trong phân loại dữ liệu có sai lệch hoặc mất cân bằng cao, ví dụ phát hiện đột nhập mang và gian lận tài chính chúng ta lại quan tâm đến các lớp chiếm số lượng ít. Các lớp người ta thường quan tâm gọi là lớp dương và phần còn lại là lớp âm. Độ chính xác không thích hợp để đánh gái trong một số trường hợp bởi có thể đạt được độ chính xác cao nhưng không thể xác định xâm nhập đơn lẻ. Ví dụ, 99% các trường hợp là bình thường trong thiết lập một dữ liệu phát hiện xâm nhập. Sau đó, một phân loại có thể đạt được độ chính xác 99% (mà không làm bất cứ điều gì) bằng cách đơn giản phân loại tất cả các trường hợp thử nghiệm là "không xâm nhập". Điều này, tuy nhiên, không cần thiết. Độ chính xác và độ hồi nhớ là thích hợp trong vài ứng dung vì chúng đánh giá phân loại như thế nào chính xác và hoàn thành trên lớp dương. Đó là thuận lợi để giới thiệu các biện pháp này bằng cách sử dụng một ma trận nhầm lẫn (confusion matrix).Một ma trận nhầm lẫn có chứa thông tin về kết quả thực tế và dự đoán được đưa ra bởi phân loại.

Hình 5 Ma trận nhầm lẫn của một phân loại Trong đó

TP : số lượng phân loại chính xác của những mẫu dương (true positive) FN: số lượng phân loại không chính xác của những mẫu dương (false negative) FP: số lượng phân loại không chính xác của những mẫu âm (flase positve) TN: số lượng phân loại chính xác của những mẫu âm (true negative) Dựa trên ma trận nhầm lẫn, độ chính xác(p) và độ hồi nhớ (r) của lớp dương được định nghĩa:

Nói cách, đô chính xác p là số phân loại chính xác mẫu dương chia cho tổng số các mẫu được phân loại là dương. Độ hồi nhớ r là số phân loại chính xác mẫu dương chia cho tổng số các mẫu thực tế dương trong các thiết lập thử nghiệm. Các ý nghĩa trực quan của hai biện pháp này là khá rõ ràng. Tỉ lệ dương tính thật (TPR) được định nghĩa là một phần trong các trường hợp dương tính thực được phân loại chính xác :

Tỷ lệ dương tính giả (FPR) được định nghĩa là một phần trong số các trường hợp âm tính thực tế được phân loại vào lớp tích cực,

TPR cơ bản của nhớ lại của lớp dương tính và cũng được gọi là nhạy cảm trong thống kê.Ngoài ra còn có một biện pháp khác trong thống kê được gọi là đặc trưng, đó là tỷ lệ đúng âm tính (TNR), hoặc nhớ lại của lớp tiêu cực. TNR được định nghĩa như sau:

III.Kết luận
SVM là một hệ thống học tuyến tính nhằm tìm đường quyết định mức lền lớn nhất để chia điểm dương và âm. SVM tương đương với việc giải quyết bài toán tối ưu bậc hai. Ranh giới quyết định phi tuyến tính được tìm qua việc chuyển đổi dữ liệu ban đầu sang không sang đặc đặc trưng có số chiều nhiều hơn. Tuy nhiên việc chuyển đổi này không chính xác hoàn toàn. Do đó hàm nhân được sử dụng để tính toán tích vô hướng cần trong học máy mà không cần hàm chuyển đổi. Tuy nhiên SVM cũng có một số hạn chế : - SVM chỉ làm việc với không gian đầu vào là các số thực →Đối với các thuộc tính định danh (nominal), cần chuyển các giá trị định danh thành các giá trị số. - SVM chỉlàm việc (thực hiện phân lớp) với 2 lớp Đối với các bài toán phân lớp gồm nhiều lớp, cần chuyển thành một tập các bài toán phân lớp gồm 2 lớp, và sau đó giải quyết riêng rẽ từng bài toán 2 lớp này. - Siêu phẳng phân tách (ranh giới quyết định phân lớp) xác định được bởi SVM thường khó hiểu đối với người dùng. Vấn đề (khó giải thích quyết định phân lớp) này càng nghiêm trọng, nếu các hàm nhân (kernel functions) được sử dụng. SVM thường được dùng trong các bài toán ứng dụng mà trong đó việc giải thích hoạt động (quyết định) của hệ thống cho người dùng không phải là một yêu cầu quan trọng.

IV.Tài liệu tham khảo
[1]. Srinivas Mukkamala, Guadalupe Janoski, Andrew Sung :Intrusion Detection: Support Vector Machines and Neural Networks [2]. B. Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data.Springer, 2006. [3]. JingTao Yao, Songlun Zhao, and Lisa Fan: An Enhanced Support Vector Machine Model for Intrusion Detection

Sign up to vote on this title
UsefulNot useful