III.

Intrusion Detection Phát hiện bất thường đề cập đến vấn đề tìm kiếm các mẫu dữ liệu không phù hợp với hành vi mong đợi. Những mô hình không phù hợp thường được gọi là bất thường, giá trị ngoại lai, quan sát nghịch, trường hợp ngoại lệ, bất ngờ..trong các lĩnh vực khác nhau. Trong số này, bất thường và giá trị ngoại lai là hai thuật ngữ được sử dụng phổ biến, nhất là trong bối cảnh phát hiện bất thường. Phát hiện bất thường được sử dụng rộng rãi trong nhiều ứng dụng như phát hiện gian lận bảo hiểm, thẻ tín dụng hoặc chăm sóc sức khỏe, phát hiện xâm nhập an ninh, phát hiện lỗi trong hệ thống an toàn, và giám sát các hoạt động quân sự đối phương… Phát hiện bất thường trong các dữ liệu đã được nghiên cứu trong cộng đồng thống kê là vào đầu thế kỷ XIX. Theo thời gian, một loạt các kỹ thuật phát hiện bất thường đã được phát triển trong một số cộng đồng nghiên cứu. Nhiều trong số các kỹ thuật này được đăc biệt phát triển cho các ứng dụng nhất định, trong khi các phương pháp khác thì chung chung hơn.

1. Bất thường là gì?
Bất thường là một mẫu dữ liệu không phù hợp với hành vi mong đợi, các mẫu dữ liệu này là không phù hợp với một khái niệm được xác định rõ hành vi bình thường. Hình dưới là ví dụ minh họa về bất thường trong một tập dữ liệu 2 chiều đơn giản. Dữ liệu có 2 vùng bình thường là N1 và N2, vì hầu hết các quan sát được đều nằm ở vùng này. Các điểm xa những khu vực này, như O1 và O2, và điểm O3 trong khu vực , là bất thường.

Bất thường có thể được gây ra trong các dữ liệu bởi một loạt các lý do. biến. Tương tự. điểm. đặc trưng…). chẳng hạn như các hành động ác ý. ví dụ. nhưng tất cả những lý do đề có một đặc tính phổ biến mà chúng thích hợp để phân tích. các kỹ thuật thống kê có thể được sử dụng cho các dữ liệu liên tục hay rời rạc. xâm nhập mạng. Bản chất của dữ liệu đầu vào Một khía cạnh quan trọng của bất kỳ kỹ thuật phát hiện bất thường nào là bản chất của dữ liệu nhập vào. hay phù hợp thực tế đời sống. trường hợp. sự kiện. Trong trường hợp đa biến. 2. các thuộc tính có thể cùng loại hay gồm nhiều loại khác nhau. của các bất thường là đặc tính quan trọng trong việc phát hiện bất thường. hoạt động khủng bố hoặc sự cố của một hệ thống. tính năng. Bản chất của các thuộc tính quyết định đến khả năng ứng dụng của các phương pháp phát hiện bất thường. mẫu. thực thể…). mô hình. Mỗi mô tả dữ liệu có thể được thể hiện bằng cách sử dụng một tập các thuộc tính (các trường. Mỗi mô tả dữ liệu có thể chỉ có một thuộc tính (đơn biến) hay gồm nhiều thuộc tính (đa biến). với các kỹ thuật dựa trên lân cận gần . ví dụ như gian lận thẻ tín dụng. Đầu vào thường là một tập các trường dữ liệu (như các đối tượng. phạm trù hay liên tục. hồ sơ. Các thuộc tính có thể là các loại khác nhau như nhị phân. vec-tơ. Sự lôi cuốn.

khoảng cách cặp giữa các trường hợp có thể được cung cấp dưới hình thức một ma trận khoảng cách (hoặc tương tự). HIDS (Host-based IDS) :triểnkhaitrênmáytrạmhoặc server quantrọng. và đồ thị. Dữ liệu đầu vào cũng có thể được phân loại dựa trên mối quan hệ giữa các mẫu dữ liệu. dữ liệu chuỗi thời gian. Hệthốnggiámsátcácsựkiệntronghệđiềuhànhvàhệthống file đểpháthiệnviệcsửdụngtráiphép ( viruses. dữ liệu thông tin xe cộ. các mẫu dữ liệu được sắp xếp tuyến tính. Thông thường. kỹ thuật đòi hỏi các mẫu dữ liệu ban đầu là không khả dụng. U2R). Hầu hết các kỹ thuật phát hiện bất thường hiện nay giải quyết với các dữ liệu bản ghi (hoặc dữ liệu điểm). ví dụ. đểpháthiệnxâmnhậpchokhuvựcđó. chỉđểbảovệriêngtừngmáy. Nói chung. b. Các dị thường có thể phân thành 3 loại: 3.1. các mẫu dữ liệu có thể liên quan đến nhau. 3. 3. như kỹ thuật dựa trên thống kê hay phân loại. R2L. trình tự các protein… Trong dữ liệu không gian. Bất thường điểm Bất thường ngữ cảnh Tập bất thường IDS (Intrusion Detection System) cóthểphânloạitheo 3 hướngđólà: 1. Trong những trường hợp như vậy. Trong dữ liệu liên tục.3.nhất. dữ liệu sinh thái. 3. thay vì các dữ liệu thực tế. bản chất các thuộc tính sẽ quyết định các biện pháp khoảng cách được sử dụng. .2. mà trong đó không có mối quan hệ được giả định trong số các mẫu dữ liệu. trình tự bản đồ gen. ví dụ. Các dạng bất thường Một khía cạnh quan trọng của một kỹ thuật phát hiện bất thường là bản chất của bất thường. Phânloạidựatheo HIDS or NIDS : a. mỗi mẫu dữ liệu liên quan đến mẫu lân cận của nó. NIDS (Network-based IDS) :đặttạinhữngđiểmquantrọngcủahệthốngmạng. Một số ví dụ như dữ liệu liên tục. dữ liệu không gian.

Phânloạidựatrênphươngphápphântíchtrong IDS: a.Hệthốngsẽgiámtoànbộlưulượngmạngđếnvàđi.cổng. Tronggiớihạncủabảnbáocáonày. Spade (Hoagland. Hand coded or machine learning – A hand coded system yêucầungườisửdụngxácđịnhquytắc/luậtchocáchành vi bìnhthườnghoặccáccuộctấncông. cácthông tin trạngthái giaothứcTCP. Network Anomaly Detection Hệthống mạngpháthiện bấtthường giámsát địa chỉ IP. Từđóbáohiệumộtcuộctấncôngmớitrongtrườnghợpcácsựkiệnkhácbiệt so vớimộtmôhìnhcáchànhvithôngthường. Phươngthứcnàytươngtựnhưphươngthứcpháthiện virus mớidựatrêntínhiệu hay cácmẫuthíchhợpđãđượcnhậnbiết. một plug-in củaSnort. Mộthệthống machine learning tổngquáthóatừtậpdữliệuhuấnluyện¸ từđóxácđịnhđólàhành vi bìnhthườnghoặcchứanhãncủa 1 cuộctấncông. vàcácthuộctính khác đểxácđịnhphiênmạng (Network Session) hoặccác kếtnối TCP khácbiệt so với profile đãđượcđàotạothông qua cácdữliệubìnhthường (normal hay attack free data). 2. Pháthiệncácdịthường (Anomaly Detection): Hệthốngpháthiệncácdịthườngtìmkiếmvàpháthiệncáchiệntượngdịthườn gtrongcáccáchànhviđãđượcxácđịnh. Chúngthườngđược kết hợp với cácthiếtbịpháthiệndựatrêndấuvếtnhưcácthành phần trongcáchệthống lớn hơn. 2000). làmột hệthốngpháthiệnbấtthườngthông qua việcgiámsát địachỉ và cổng củacácgói tin TCP SYN (thôngthườnglàgói . Sauđâychúng ta cùngxemxétmộtvàihệthốngmạngpháthiệnbấtthườngcơbản: 1. Pháthiệndựavàocácluật (Rules-based Detection ) : PhươngthứcnàycònđượcbiếtđếnvớitêngọiPháthiệntráiphép (Misuse Detection) hay dựatrêndấuvết (Signature-based Detection). chúng ta sẽtậptrungvàocáchệthốngmạngpháthiệnbấtthường (Network Anomaly Detection System) IV. b. 3. từđópháthiệncáccuộctấncôngtừxa.

cáccuộctấncôngcónhãn. nóđượccoilà bấtthường. 2001b) kếthợpmộtpháthiệnbấtthườngđượcđàotạovềgiaothôngtấncôngvớimộtphânloạ iđượcđàotạovềgiaothôngcóbiết. Cácphươngpháppháthiệnbấtthường .Cácthànhphầnpháthiệnbấtthườngthựchiệnphântíchgiỏth ịtrườngchưacómặttrongdiễnđànmiễnphígiaothôngtấncôngsửdụngkỹthuậttươn gtựnhư Ripper hoặc APRIORI đểtìmcácquytắcđiềukiệntrongsốnhữngthuộctínhnàyvớisựhỗtrợcaovàsựtựtin. V. mộtphânloại (mộtcâyquyếtđịnh) đượcđàotạovềlưulượngtruycậpcóchứacáccuộctấncôngcónhãn. 2001a. vàthờigiantrongngày.Giốngnhư Spade. ADAM cũngtheodõicácmạng con (1-3 byte đầutiêncủamộtđịachỉ IP 4 byte). port) / count (all). Trongquátrìnhthửnghiệm. nógiámsátcáckếtnốiTCP. Nếu gói hiện tạicóxácsuất thấphơn ngưỡngchophép. nóchỉmôhình địachỉvàcổngcủa server. port) =count (address. cácngàytrongtuần. ADAM (Barbara et al.Ngoàiđịachỉvàcổng. phiêncôlậpcácquytắcnàyđượcthông qua thànhphầnthứhai. và xây dựng mộtmôhình xácsuất bằngcáchđếm sốđịachỉ (address)/ số cổng(port) : P (address.Ngưỡng nàyđượcthayđổi kháchậm đểgiữ tỷlệ cảnhbáocố định.Barbara et al. 2. Spade cũng có chếđộxácsuất bao gồm địachỉnguồn vàcổng. và 1 cảnhbáo đượctạora.Sessionskhông tự tin cóthểđượcphânloạinhưcáccuộctấncôngnổitiếng hay bìnhthườngđượcphânloạinhưcáccuộctấncôngkhôngrõ. cờ TCP nhànước.Địa chỉ ngu ồnbấtthườngtrêncácmáychủ chấpnhận chỉ mộtdanhsáchnhỏ các client chỉramột ngườisửdụngtráiphép.tin đầu tiên mộtphiên client-server).Theo mặcđịnh.

. nó cũng phải lặp lại các đặc tính của các giao thức trong môi trường mục tiêu. và DNS. IMAP. Rất khó khăn cho các nhà phát triển hệ thống của một máy chủ hoặc máy khách có thể nhận biết được tất cảchi tiết của một giao thức. Protocol Modeling: làmộtmôhình được thiết kế để giámsátcác giao thức tìm kiếmsựsaikhác so vớicách sử dụng bình thường của nó. Ví dụ. Teardrop và ping of death khai thác thực việc thực hiện của giao thức IP. trong đó chiều dài của xâu đầu vào không được kiểm tra trong một số trường hợp. Time-Based Protocol Modeling a.Các gói tin không chỉ phải đáp ứng các yêu cầu của giao thức. và ngược lại nó cũng tạo ra khó khăn cho kẻ tấn công. checksum…Thật khó đểđiền đúng tất cả các trường này. cái mà được lắp ráp lại một cách không bình thường… Một nguồn khác của các bất thường trong giao thức đó là các lỗi trong chính mã tấn công. chẳng hạn như trường TTL header. length header. Cách tiếp cận này xuất phát từ thực tế là một số lượng lớn các cuộc tấn công mạng lợi dụng các lỗi của việc thực hiện giao thức. mà để tránh bị phát hiện. sendmail. và named khai thác việc thực hiện không thích hợp các giao thức SMTP.1. chẳng hạn mục tiêu bị treo khi được đưa ra với 1 đoạn IP bất thường. các cuộc tấn công lừa đảo địa chỉ nguồn phải được lập trình ởmức IP bằng cách sử dụng một kỹ thuật như raw socket chẳng hạn. Điều này đòi hỏi kẻ tấn công để điền vào tất cả các trường trong phần tiêu đề IP. imap. Ví dụ.

Sign up to vote on this title
UsefulNot useful