You are on page 1of 17

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Hiền - 19020281

BÁO CÁO CUỐI KỲ


TẤN CÔNG TRÍ TUỆ NHÂN TẠO: LỖ HỔNG BẢO MẬT CỦA AI

Môn học: An toàn và an ninh mạng


Giảng viên: TS. Nguyễn Đại Thọ

Hà Nội - 2022
MỤC LỤC

MỞ ĐẦU 3

I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO 4
1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại? 4
1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công 5

II, INPUT ATTACKS 5


2.1, Cách thức tấn công 5
2.2 Phân loại các cuộc tấn công đầu vào 6
2.2.1 Trục khả năng cho phép 7
2.2.2 Định dạng 10
2.3 Tạo một cuộc tấn công đầu vào 11

III, POISONING ATTACKS 12


3.1 Poisoning Attacks là gì? 12
3.2 Chế tạo một cuộc tấn công đầu độc 14
3.2.1 Đầu độc tập dữ liệu 14
3.2.2 Ngộ độc thuật toán 14
3.2.3 Đầu độc mô hình 15

KẾT LUẬN 16

TÀI LIỆU THAM KHẢO 17


MỞ ĐẦU

Kẻ khủng bố của thế kỷ XXI sẽ không nhất thiết sử dụng bom, uranium hay vũ khí sinh
học. Hắn ta sẽ chỉ cần sử dụng một công cụ đáng giá $1.5 - băng dính trong suốt để thực hiện
cuộc tấn công của hắn. Đặt một vài mảnh băng trong suốt nhỏ vào biển báo giao thông ở ngã
tư một cách kín đáo, hắn ta có thể biến biển báo dừng xe thành đèn xanh trong mắt một chiếc
ô tô tự lái một cách kỳ diệu. Thực hiện việc này ở một ngã tư nhộn nhịp sẽ gây ra tai nạn, nó
sẽ đưa hệ thống giao thông đi vào tắc nghẽn.
Các thuật toán trí tuệ nhân tạo đang được kêu gọi để đưa ra trong tương lai này có một
vấn đề: theo cách chúng được huấn luyện, chúng có thể bị tấn công và điều khiển bởi kẻ thù.
Cái chúng ta thấy ở tín hiệu đèn giao thông là tín hiệu dừng, nhưng hệ thống trí tuệ nhân tạo bị
tấn công lại nhận diện là tín hiệu đèn xanh. Điều này được coi là “Artificial intelligence attack”
(AI attack).
Lỗ hổng này là do những hạn chế cố hữu trong các phương pháp AI hiện đại, khiến
chúng có khả năng xảy ra một loạt các cuộc tấn công tàn khốc, ngấm ngầm nhưng nguy hiểm.
Trong một cuộc tấn công, kẻ thù có thể giành quyền kiểm soát hệ thống AI với một thao tác
nhỏ nhưng được lựa chọn cẩn thận, từ một mảnh băng trên biến báo dừng đến một hạt bụi kỹ
thuật số không thể nhìn thấy đối với con người. Theo cách khác, kẻ thù có thể đầu độc các hệ
thống AI, cài đặt các cửa hậu có thể được sử dụng tại thời điểm và địa điểm họ chọn để phá
hủy hệ thống. Cho dù đó là điều khiển ô tô vượt đèn đỏ, đánh lừa máy bay không người lái tìm
kiếm hoạt động của đối phương trong nhiệm vụ do thám hay lật đổ bộ lọc nội dung để đăng
tuyên truyền tuyển mộ khủng bố trên mạng xã hội, thì mối nguy hiểm này vẫn nghiêm trọng,
phổ biến và đã ở đây. Nội dung được tải lên Internet mỗi phút là một số lượng đáng kinh
ngạc. Hơn ba tỷ hình ảnh được chia sẻ mỗi ngày trên Internet. [14] bộ lọc nội dung dựa trên AI
đã trở thành công cụ chính, nếu không muốn nói là duy nhất, và đã được ngành công nghiệp
áp dụng rộng rãi. Ví dụ, Facebook đã xóa 21 triệu mẩu nội dung khiêu dâm chỉ trong quý đầu
tiên của năm 2018, 96% trong số đó bị gắn cờ bởi các thuật toán này. [15]
Tuy nhiên, không phải tất cả các ứng dụng của AI đều “tốt”, không phải tất cả các cuộc
tấn công của AI đều là “xấu”. Khi các chế độ chuyên quyền chuyển sang sử dụng AI như một
công cụ để giám sát và kiểm soát dân số của họ, các cuộc tấn công “AI” có thể được sử dụng
như một biện pháp bảo vệ chống lại sự áp bức của chính phủ.
Như vậy, báo cáo này sẽ giúp ta có cái nhìn tổng quát về cách mà kẻ tấn công có thể
tấn công hệ thống AI và sự khác biệt của tấn công AI với tấn công an ninh mạng truyền thống.
I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO
Một cuộc tấn công bằng trí tuệ nhân tạo (AI attack) là sự thao túng có chủ đích của một
hệ thống AI với mục tiêu cuối cùng là làm cho nó hoạt động sai. Các cuộc tấn công này có thể
có các hình thức khác nhau tấn công vào các điểm yếu khác nhau trong các thuật toán cơ bản:
● Input Attacks: thao túng những gì được đưa vào hệ thống AI nhằm thay đổi đầu ra của hệ
thống để phục vụ mục tiêu của kẻ tấn công. Bởi vì cốt lõi của nó, mỗi hệ thống AI là một
cỗ máy đơn giản - nó nhận đầu vào, thực hiện một số tính toán và trả lại đầu ra - thao tác
đầu vào cho phép kẻ tấn công ảnh hưởng đến đầu ra của hệ thống.
● Poisoning Attacks: làm hỏng quá trình mà hệ thống AI được tạo ra để hệ thống đưa ra kết
quả sai theo cách mà kẻ tấn công mong muốn. Một cách trực tiếp để thực hiện một cuộc
tấn công đầu độc là làm hỏng dữ liệu được sử dụng trong quá trình huấn luyện. Điều này
là do các phương pháp học máy hiện đại cung cấp tri thức cho AI hoạt động bằng cách
“học” cách thực hiện một nhiệm vụ, nhưng chúng “học” từ một nguồn và chỉ một nguồn
dữ liệu. Các cuộc tấn công đầu độc cũng có thể ảnh hưởng đến chính quá trình tự học. Các
nghiên cứu cho thấy rằng việc nhiễm độc tập dữ liệu huấn luyện 3% dẫn đến giảm 11% độ
chính xác. [16]

1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại?
Các cuộc tấn công bằng AI tồn tại bởi vì có những hạn chế cơ bản trong các thuật toán
AI mà đối thủ có thể khai thác để làm cho hệ thống thất bại. Không giống như các cuộc tấn
công an ninh mạng truyền thống, những điểm yếu này không phải do lập trình viên hay người
dùng. Chúng chỉ là những thiếu sót của các thuật toán học máy tối tân hiện nay. Nói một cách
thẳng thắn hơn, các thuật toán khiến hệ thống AI hoạt động tốt là không hoàn hảo, và những
hạn chế mang tính hệ thống của chúng tạo cơ hội cho kẻ thù tấn công
Để biết tại sao lại như vậy, chúng ta cần hiểu cách các thuật toán làm nền tảng cho AI
hoạt động. Nhiều hệ thống AI hiện tại được hỗ trợ bởi máy học, là một tập hợp các kỹ thuật
trích xuất thông tin từ dữ liệu để “học” cách thực hiện một nhiệm vụ nhất định. Một thuật toán
học máy “học” tương tự như cách con người học. Con người học bằng cách xem nhiều ví dụ
về một đối tượng hoặc khái niệm trong thế giới thực và lưu trữ những gì học được trong não
để sử dụng sau này. Các thuật toán học máy “học” bằng cách xem nhiều ví dụ về một đối tượng
hoặc khái niệm trong tập dữ liệu và lưu trữ những gì đã học trong một mô hình để sử dụng sau
này.
Chìa khóa để hiểu các cuộc tấn công của AI là hiểu “học” trong học máy thực sự là gì
và quan trọng hơn nó không phải là gì. Nhớ lại rằng học máy “học” bằng cách xem nhiều ví dụ
về một khái niệm hoặc đối tượng trong tập dữ liệu. Với đủ dữ liệu, các mẫu được học có chất
lượng cao đến mức chúng thậm chí có thể làm tốt hơn con người trong nhiều nhiệm vụ. Tuy
nhiên trong quá trình “học” này đã tạo ra một lỗ hổng nghiêm trọng: nó hoàn toàn phụ thuộc
vào tập dữ liệu. Bởi vì tập dữ liệu là nguồn kiến thức duy nhất của mô hình, nếu nó bị kẻ tấn
công làm hỏng hoặc “đầu độc”, mô hình học được từ dữ liệu này sẽ bị xâm phạm. Những kẻ
tấn công có thể đầu độc tập dữ liệu để ngăn mô hình học các mẫu cụ thể, hoặc ngấm ngầm hơn
cài đặt các lối đi bí mật có thể được sử dụng để đánh lừa mô hình trong tương lai. [1]
Nhưng vấn đề không chỉ dừng lại ở đó. Bởi các mô hình học máy chỉ hoạt động dựa
trên dữ liệu có bản chất tương tự với dữ liệu được sử dụng trong quá trình học. Nếu được sử
dụng trên dữ liệu thậm chí có một chút khác biệt về bản chất so với các loại biến thể mà nó đã
thấy trong tập dữ liệu ban đầu, thì mô hình hoàn toàn có thể thất bại. Đây là một hạn chế lớn
mà kẻ tấn công có thể khai thác: bằng cách đưa vào các biến thể nhân tạo - chẳng hạn như một
đoạn băng hoặc các mẫu sai khác - kẻ tấn công có thể phá vỡ mô hình và kiểm soát hành vi của
nó dựa trên những gì mẫu nhân tạo được đưa vào.

1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công
● Máy học hoạt động bằng cách “học” các mẫu tương đối của đối tượng trong tập dữ liệu.
Trái với suy nghĩ của nhiều người, các mô hình học máy không “thông minh” hoặc không
có khả năng thực sự bắt chước khả năng của con người trong các nhiệm vụ, ngay cả những
nhiệm vụ mà chúng thực hiện tốt. Thay vào đó, chúng hoạt động bằng cách học các liên
kết thống kê và tương đối dễ phá vỡ. Những kẻ tấn công có thể khai thác tính chất này để
tạo ra các cuộc tấn công phá hủy hiệu suất của một mô hình.
● Học máy chỉ “học” bằng cách trích xuất các mẫu từ một tập hợp các ví dụ được gọi là tập
dữ liệu. Không giống như con người, mô hình học máy không có kiến thức cơ bản mà
chúng có thể tận dụng, toàn bộ kiến thức của chúng phụ thuộc hoàn toàn vào dữ liệu mà
chúng nhìn thấy. Đầu độc dữ liệu làm đầu độc hệ thống AI.
● Bản chất hộp đen của các thuật toán hiện đại làm cho việc kiểm tra chúng trở nên khó
khăn. Người ta còn hiểu tương đối ít về cách các thuật toán học máy hiện đại được sử dụng
rộng rãi, chẳng hạn như mạng nơ-ron sâu. Điều này gây khó khăn trong việc để biết liệu
một mô hình học máy đã bị xâm phạm,, hoặc thậm chí nếu nó đang bị tấn công hoặc chỉ
hoạt động không tốt. Đặc điểm này khiến cho các cuộc tấn công AI khác biệt so với các
vấn đề an ninh mạng truyền thống khi có định nghĩa rõ ràng về các lỗ hổng, ngay cả khi
chúng khó tìm thấy.
Tổng hợp lại, những điểm yếu này giải thích tại sao không có các bản sửa lỗi kỹ thuật
hoàn hảo cho các cuộc tấn công bằng AI. Những lỗ hổng này không phải là “lỗi” có thể được
vá hoặc sửa chữa như được thực hiện với các lỗ hổng bảo mật mạng truyền thống. Chúng là
những vấn đề sâu sắc ở trung tâm của chính AI.

II, INPUT ATTACKS


2.1, Cách thức tấn công
Các cuộc tấn công đầu vào kích hoạt hệ thống AI hoạt động sai bằng cách thay đổi đầu
vào được đưa vào hệ thống. Như thể hiện trong hình, điều này được thực hiện bằng cách thêm
“attack pattern” vào đầu vào, chẳng hạn như đặt băng trên biển báo dừng ở giao lộ hoặc thêm
các thay đổi nhỏ vào ảnh kỹ thuật số đang được tải lên mạng xã hội.
Các cuộc tấn công đầu vào không yêu cầu kẻ tấn công phải làm hỏng hệ thống AI để
tấn công nó. Các hệ thống AI hiện đại hoàn toàn có độ chính xác cao và chưa bao giờ bị xâm
phạm tính toàn vẹn, tập dữ liệu hoặc thuật toán thì vẫn dễ bị tấn công đầu vào. Và trái ngược
hoàn toàn với các cuộc tán công mạng khác, bản thân cuộc tấn công không phải lúc nào cũng
sử dụng máy tính.
Hình 1: Khi sử dụng thường xuyên, hệ thống AI nhận một đầu vào hợp lệ, xử lý nó và trả về
một đầu vào. Trong khi cuộc tấn công đầu vào, đầu vào cho hệ thống AI bị thay đổi theo kiểu
tấn công, khiến hệ thống AI trả về một đầu ra không chính xác
Các cuộc tấn công này đặc biệt nguy hiểm vì các kiểu tấn công không dễ chú ý, và thậm
chí có thể hoàn toàn không thể phát hiện được. Đối thủ có thể chỉ thay đổi một khía cạnh nhỏ
của đầu vào một cách chính xác để phá vỡ các mô hình đã học trước đó của hệ thống. Đối với
các cuộc tấn công vào các đối tượng vật lý phải được cảm biến hoặc máy ảnh ghi lại trước khi
đưa vào hệ thống AI, kẻ tấn công có thể tạo ra những thay đổi nhỏ vừa đủ lớn để cảm biến ghi
lại. Đây là “cuộc tấn công bằng băng”, thông thường những kẻ tấn công nhận ra rằng việc đặt
một miếng băng trắng dài 2 inch ở góc trên của biển báo dừng sẽ khai thác được những thiếu
sót cụ thể trong các mẫu mà mô hình đã học, biến nó thành đèn xanh [2]. Đối với các cuộc tấn
công vào các đối tượng kỹ thuật số được đưa trực tiếp vào hệ thống AI, chẳng hạn như một
hình ảnh được tải lên mạng xã hội, các hình thức tấn công có thể không nhìn thấy được đối với
mắt người. Điều này là do trong cài đặt kỹ thuật số, các thay đổi có thể xảy ra ở cấp độ pixel
riêng lẻ, tạo ra các thay đổi rất nhỏ mà mắt người không thể nhìn thấy theo nghĩa đen.

2.2 Phân loại các cuộc tấn công đầu vào


Khía cạnh thú vị nhất của các cuộc tấn công đầu vào là mức độ đa dạng của chúng. Các
cuộc tấn công đầu vào các hệ thống AI giống như những bông tuyết: không có 2 thứ nào hoàn
toàn giống nhau. Bước đầu tiên trong việc bảo vệ hệ thống khỏi các cuộc tấn công này là tạo
ra một phân loại để mang lại trật tự cho các khả năng tấn công. “Form fits function”- hình thức
phù hợp với chức năng, để thực hiện cuộc tấn công kẻ thù sẽ chọn một hình thức tấn công phù
hợp với kịch bản và nhiệm vụ cụ thể của họ. Do đó, một phân loại học cũng nên theo xu hướng
này.
Các hình thức tấn công đầu vào có thể được đặc trưng theo hai trục: khả năng nhận biết
và định dạng. Khả năng nhận biết đặc trưng nếu cuộc tấn công có thể nhận biết được đối với
con người (ví dụ: đối với các cuộc tấn công của AI vào các thực thể vật lý, cuộc tấn công có
thể nhìn thấy hoặc không nhìn thấy bằng mắt người). Định dạng đặc trưng nếu vecto tấn công
là một đối tượng vật lý trong thế giới thực (ví dụ: biển báo dừng) hoặc một tài sản kỹ thuật số
(ví dụ: tệp hình ảnh trên máy tính).

Hình 2: Nguyên tắc phân loại các cuộc tấn công đầu vào. Trục hoành đặc trưng cho định dạng
của cuộc tấn công, trong thế giới vật lý hoặc kỹ thuật số. Trục tung đặc trưng cho khả năng
nhận biết được của cuộc tấn công, có thể nhận biết được đối với con người hay không.

2.2.1 Trục khả năng cho phép


Ở một đầu của trục là các cuộc tấn công “có thể nhận biết được”, trong đó con người
có thể nhận ra kiểu tấn công đầu vào. Các kiểu tấn công có thể được thay đổi đối với chính
mục tiêu, chẳng hạn như làm biến dạng, loại bỏ một phần hoặc thay đổi màu sắc của mục tiêu.
Ngoài ra, hình thức tấn công có thể là một bổ sung cho mục tiêu, ví dụ như dán băng dính hoặc
các đề can khác vào mục tiêu vật lý, hoặc thêm dấu kỹ thuật số vào mục tiêu kỹ thuật số. Ví dụ
về các cuộc tấn công có thể nhận ra bao gồm làm mờ dấu hiệu dừng bằng các mẫu hình thành
từ băng,[3] hoặc sử dụng phần mềm để chồng các đối tượng như kính [4] lên hình ảnh kỹ thuật
số của chủ thể.
Hình dưới đây cho thấy cách thức hình thành một cuộc tấn công có thể nhận biết được
đối với một đối tượng vật lý. Một đối tượng thông thường được thay đổi với một hình thức tấn
công nhìn thấy được (một vài mảnh băng) để tạo thành đối tượng tấn công. Trong khi đối tượng
thông thường sẽ được phân loại chính xác bởi hệ thống AI, đối tượng tấn công được phân loại
không chính xác thành “đèn xanh”.

Hình 3: Tạo một cuộc tấn công đầu vào có thể nhìn thấy. Một mảnh băng nhỏ được dán vào
đối tượng vật lý, khiến hệ thống AI phân loại sai hình ảnh với một sự thay đổi nhỏ về hình thức
của nó
Mặc dù các cuộc tấn công có thể nhìn thấy, được con người nhận thấy, nhưng chúng
vẫn có thể mang lại hiệu quả cao vì một số lý do. Đầu tiên, các cuộc tấn công có thể nhận thức
được không cần phải phô trương. Một cuộc tấn công có thể nhìn thấy dưới dạng một vài mảnh
băng được lựa chọn cẩn thận đặt trên biển báo dừng có thể được nhận biết, nhưng sẽ không
nhất thiết bị chú ý. Con người thường bỏ qua những thay đổi nhỏ trong môi trường của họ,
chẳng hạn như vẽ bậy. Do đó, các cuộc tấn công có thể nhận biết được có thể hoàn toàn không
được chú ý. Thứ hai, các cuộc tấn công có thể nhận biết được có thể được tạo ra để ẩn trong
tầm nhìn của con người. Một cuộc tấn công có thể nhìn thấy dưới dạng kính được thiết kế đặc
biệt hoặc một biểu tượng được chế tạo đặc biệt được thêm vào áo thun của một người sẽ được
nhận thấy, nhưng sẽ không bị nghi ngờ là một cuộc tấn công, nó ẩn nấp hiệu quả trong tầm
nhìn rõ ràng trong trường hợp này.
Ở đầu bên kia của trục khả năng hiển thị là các cuộc tấn công “không thể nhìn thấy
được” mà các giác quan của con người không nhìn thấy được. Các cuộc tấn công bất khả xâm
phạm có thể có nhiều hình thức. Đối với nội dung kỹ thuật số như hình ảnh, các cuộc tấn công
này có thể được thực hiện bằng cách rắc “digital dust” lên đầu mục tiêu. [5] Về mặt kỹ thuật,
bụi này ở dạng nhiễu động nhỏ, không thể phát hiện, được thực hiện đối với toàn bộ mục tiêu.
Mỗi phần nhỏ của mục tiêu được thay đổi một chút đến mức mắt người không thể cảm nhận
được sự thay đổi, nhưng tổng thể, những thay đổi này đủ để thay đổi hành vi của thuật toán
bằng cách phá vỡ các mẫu mà mô hình đã học. Hình dưới đây cho thấy cách một cuộc tấn công
không thể nhìn thấy được hình thành theo cách này. Một hình ảnh kỹ thuật số bình thường bị
thay đổi với các nhiễu loạn cấp pixel nhỏ, không thể nhìn thấy nằm rải rác khắp hình ảnh, tạo
thành hình ảnh tấn công. Trong khi hình ảnh thông thường sẽ được hệ thống AI phân loại chính
xác là “gấu trúc”, đối tượng tấn công được phân loại không chính xác là “khỉ”. Tuy nhiên, do
hình thức tấn công tạo ra những thay đổi nhỏ như vậy nên đối với mắt người, hình ảnh tấn công
trông giống hệt hình ảnh thông thường ban đầu.

Hình 4: Tạo một cuộc tấn công đầu vào vô hình. Một lượng nhiễu nhỏ mà mắt người không
nhìn thấy được sẽ được thêm vào toàn bộ hình ảnh, khiến hệ thống AI phân loại sai hình ảnh
mà không thay đổi hình thức của nó.
Các cuộc tấn công không thể cưỡng lại không chỉ giới hạn ở các đối tượng kỹ thuật số.
Ví dụ, các mẫu tấn công có thể được thêm vào theo những cách không thể nhìn thấy vào chính
một đối tượng vật lý. Các nhà nghiên cứu đã chỉ ra rằng một con rùa in 3D với kiểu tấn công
đầu vào không thể nhìn thấy có thể đánh lừa các thiết bị phát hiện đối tượng dựa trên AI. Mặc
dù việc phát hiện rùa có thể không gây hậu quả đến tính mạng, những chiến lược tương tự áp
dụng cho súng in 3D cũng có thể. Trong lĩnh vực âm thành, âm thanh có cường độ cao mà tai
người không thể nghe thấy nhưng có thể thu được bằng micro có thể được sử dụng để tấn công
các hệ thống AI dựa trên âm thánh, chẳng hạn như trợ lý kỹ thuật số.
Các cuộc tấn công không thể nhìn thấy này đặc biệt nguy hiểm từ quan điểm bảo mật.
Không giống như các cuộc tấn công nhìn thấy được, con người không có cách nào để quan sát
xem mục tiêu có bị thao túng hay không. Điều này đặt ra một rào cản để phát hiện các cuộc tấn
công này.
Các cuộc tấn công không nhìn thấy được có khả năng áp dụng cao đối với các mục tiêu
mà kẻ thù có toàn quyền kiểm soát, chẳng hạn như hình ảnh kỹ thuật số hoặc các đối tượng
được chế tạo. Ví dụ: một người dùng đăng một hình ảnh bất hợp pháp, chằng hạn như một hình
ảnh chứa nội dung khiêu dâm trẻ em, có thể thay đổi hình ảnh để nó tránh bị bộ lọc nội dung
dựa trên AI phát hiện, nhưng cũng không thay đổi về mặt hình ảnh so với góc nhìn của con
người. Điều này cho phép kẻ tấn công không bị kiểm soát và đối với tất cả các mục đích thực
tế, phân phối nội dung không thay đổi mà không bị phát hiện.
2.2.2 Định dạng
Tiếp theo chúng ta thảo luận về trục định dạng. Trên một đầu của trục là các cuộc tấn
công “vật lý”. Đây là những cuộc tấn công trong đó mục tiêu bị tấn công tồn tại trong thế giới
vật chất. Ví dụ các cuộc tấn công trên trợ lý kỹ thuật số được điều khiển bằng giọng nói, nơi
một âm thanh đã được sử dụng để kích hoạt hành động từ trợ lý kỹ thuật số. [7] Thay đổi được
thực hiện trực tiếp hoặc đặt trên các mục tiêu này để thực hiện một cuộc tấn công. Ví dụ về các
cuộc tấn công vật lý vào các đối tượng trong thế giới thực được thể hiện trong hình bên dưới.
Trong một số cài đặt, các cuộc tấn công vào các đối tượng vật lý có thể yêu cầu các
mẫu tấn công lớn hơn, thô hơn. Điều này là do các đối tượng vật lý này trước tiên phải được
số hóa, chẳng hạn như với máy ảnh hoặc cảm biến, để được đưa vào thuật toán AI, một quy
trình có thể phá hủy chi tiết ở mức độ tốt hơn. Tuy nhiên, ngay cả với yêu cầu số hóa này, các
cuộc tấn công vẫn có thể khó nhận biết. “Rùa tấn công” được phân loại không chính xác thành
súng trường trong ví dụ minh họa dưới đây là một trong những ví dụ về đòn tấn công vật lý
gần như vô hình. Con rùa in 3D được sản xuất để có một hoa văn rất tinh tế, kết hợp tự nhiên
với các hoa văn mai và vảy của nó, nhưng luôn đánh lừa người phân loại bất kể góc độ và vị
trí mà nó được máy ảnh quan sát. [8] Bằng cách “che dấu” đối tượng trong mô hình tấn công
này, nó có thể đánh lừa hệ thống AI mà không xuất hiện dưới dạng một cuộc tấn công đối với
người quan sát.

Hình 5: Ví dụ về các cuộc tấn công vật lý vào các đối tượng trong thế giới thực.
Ở đầu kia của trục định dạng là các cuộc tấn công “kỹ thuật số”. Đây là các cuộc tấn
công trong đó mục tiêu bị tấn công là tài sản kỹ thuật số. Ví dụ bao gồm hình ảnh, video, bài
đăng trên mạng xã hội, nhạc, tệp và tài liệu. Không giống như các mục tiêu vật lý trước tiên
phải được cảm biến và số hóa, các mục tiêu kỹ thuật số được đưa trực tiếp vào trạng thái ban
đầu của hệ thống AI. Điều này cho phép kẻ thù mở rộng lựa chọn các cuộc tấn công và giảm
bớt khó khăn trong việc tạo ra một cuộc tấn công thành công, vì chúng không cần tính đến việc
có thể làm sai lệch kiểu tấn công. Do đó, các cuộc tấn công kỹ thuật số đặc biệt phù hợp với
khả năng không nhìn thấy được. Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹ thuật
số được thể hiện trong hình bên dưới.
Hình 6: Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹ thuật số. Các cuộc tấn công
kỹ thuật số có thể được nhận ra, như với những chiếc kính chồng lên hình ảnh của một người
nổi tiếng (ảnh ở giữa), hoặc không thể nhìn thấy được, như với hình ảnh gấu trúc và vịt được
hiển thị ở đây.

2.3 Tạo một cuộc tấn công đầu vào

Một cuộc tấn công đầu vào tương đối dễ thực hiện nếu kẻ tấn công có quyền truy cập
vào mô hình AI đang bị tấn công. Được trang bị điều này, kẻ tấn công có thể tự động tạo ra các
cuộc tấn công bằng cách sử dụng các phương pháp tối ưu hóa đơn giản. Đã có sẵn phần mềm
công khai thực hiện các phương pháp này. [9] Kẻ tấn công cũng có thể sử dụng Generative
Adversarial Networks (GANs), một phương pháp được tạo ra đặc biệt để khai thác điểm yếu
trong mô hình AI, để thực hiện cuộc tấn công này. [10]

Ở khía cạnh vô hại, các mô hình thường được công khai vì chúng đã được các nhà
nghiên cứu hoặc công ty tối ưu hóa cho một nhiệm vụ chung quan trọng, chằng hạn như nhận
dạng đối tượng và sau đó công khai cho mọi người sử dụng như một phần của “mã nguồn mở”.
Ở khía cạnh gây hại, những kẻ tấn công có thể hack hệ thống lưu trữ mô hình để lấy cắp nó.
Bản thân mô hình chỉ là một tệp kỹ thuật số trên máy tính, không khác gì một hình ảnh hay tài
liệu, và do đó có thể bị đánh cắp giống như bất kỳ tệp nào khác trên máy tính. Bởi vì các mô
hình không phải lúc nào cũng được coi là tài sản có độ nhạy cảm cao, các hệ thống nắm giữ
các mô hình này có thể không có mức độ bảo vệ an ninh mạng cao.

Ngay cả khi kẻ tấn công không có mô hình, vẫn có thể thực hiện một cuộc tấn công đầu
vào. Nếu những kẻ tấn công có quyền truy cập vào tập dữ liệu được sử dụng để đào tạo mô
hình, chúng có thể sử dụng nó để xây dựng bản sao mô hình của riêng chúng và sử dụng “mô
hình sao chép” này để thực hiện cuộc tấn công của chúng. Các nhà nghiên cứu đã chỉ ra rằng
các cuộc tấn công được thực hiện bằng cách sử dụng các “mô hình sao chép” này có thể dễ
dàng chuyển sang các mô hình được nhắm mục tiêu ban đầu. [11] Có một số tình huống phổ
biến trong đó kẻ tấn công sẽ có quyền truy cập vào tập dữ liệu. Giống như bản thân các mô
hình, tập dữ liệu được cung cấp rộng rãi như một phần của phong trào mã nguồn mở, hoặc
tương tự có thể lấy được bằng cách hack hệ thống lưu trữ tập dữ liệu này. Trong một số trường
hợp hạn chế hơn khi tập dữ liệu không có sẵn, những kẻ tấn công có thể biên dịch tập dữ liệu
tương tự của chúng và sử dụng tập dữ liệu tương tự này để xây dựng “mô hình sao chép” thay
thế.

Trong một trường hợp ngày càng hạn chế hơn khi những kẻ tấn công không có quyền
truy cập vào mô hình hoặc tập dữ liệu, nhưng có quyền truy cập vào đầu ra của mô hình, chúng
vẫn có thể thực hiện một cuộc tấn công. Tình huống này thường xảy ra trong thực tế, với các
doanh nghiệp cung cấp Trí tuệ nhân tạo dưới dạng Dịch vụ thông qua API công khai. [12] Dịch
vụ này cung cấp cho người dùng kết quả đầu ra của một mô hình AI được đào tạo cho một tác
vụ cụ thể, chẳng hạn như nhận dạng đối tượng. Trong khi các mô hình này và bộ dữ liệu liên
quan của chúng được giữ kín, những kẻ tấn công có thể sử dụng thông tin đầu ra từ các API
của chúng để thực hiện một cuộc tấn công. Điều này là do thông tin đầu ra này thay thế nhu
cầu có mô hình hoặc tập dữ liệu.

Trong trường hợp khó nhất khi không có gì về mô hình, tập dữ liệu hoặc đầu ra của nó
cho kẻ tấn công, kẻ tấn công vẫn có thể cố gắng thực hiện các cuộc tấn công bằng cách trial-
and-error. Ví dụ: kẻ tấn công đang cố gắng đánh bại bộ lọc nội dung trực tuyến có thể tiếp tục
tạo ra các mẫu tấn công ngẫu nhiên và tải lên nội dung để xem nó có bị xóa hay không. Sau khi
tìm thấy một mẫu tấn công thành công, nó có thể được sử dụng trong các cuộc tấn công trong
tương lai.

III, POISONING ATTACKS

3.1 Poisoning Attacks là gì?


Các cuộc tấn công bằng chất độc là loại tấn công thứ hai của AI. Trong các cuộc tấn
công bằng chất độc, kẻ tấn công tìm cách làm hỏng chính mô hình AI để một khi nó được triển
khai, nó vốn đã bị lỗi và có thể dễ dàng bị kẻ tấn công kiểm soát. Không giống như các cuộc
tấn công đầu vào, các cuộc tấn công đầu độc mô hình diễn ra trong khi mô hình đang được học,
về cơ bản làm ảnh hưởng đến chính hệ thống AI.
Để đầu độc một hệ thống AI, kẻ tấn công phải thỏa hiệp quá trình học tập theo cách sao
cho mô hình không thành công trên một số đầu vào do kẻ tấn công chọn hoặc “học” một cửa
hậu mà kẻ tấn công có thể sử dụng để điều khiển mô hình trong tương lai. Một cách là đầu độc
một mô hình để nó không thành công trong một nhiệm vụ cụ thể hoặc các loại đầu vào. Ví dụ:
nếu quân đội đang đào tạo một hệ thống AI để phát hiện máy bay của đối phương, kẻ thù có
thể cố gắng đầu độc mô hình đã học để nó không thể nhận ra một số máy bay nhất định.
Dữ liệu là một cách chính để thực hiện một cuộc tấn công đầu độc. Bởi vì thông tin
trong tập dữ liệu được tích hợp vào hệ thống AI, bất kỳ vấn đề nào trong tập dữ liệu sẽ được
kế thừa bởi mô hình được đào tạo với nó. Dữ liệu có thể bị xâm phạm theo nhiều cách. Một
cách là làm hỏng một tập dữ liệu hợp lệ khác, như được minh họa trong hình bên dưới. Bằng
cách chuyển đổi dữ liệu hợp lệ với dữ liệu bị nhiễm độc, mô hình học máy làm nền tảng cho
hệ thống AI sẽ bị nhiễm độc trong quá trình học. Như một ví dụ về kiểu tấn công bằng chất độc
này, đào tạo một hệ thống bảo mật dựa trên nhận dạng khuôn mặt để xác nhận Alice nhưng từ
chối Bob. Nếu kẻ tấn công đầu độc dữ liệu bằng cách thay đổi một số hình ảnh của Alice thành
hình ảnh của Bob, hệ thống sẽ thất bại trong nhiệm vụ của nó vì nó sẽ học cách xác định Bob
là Alice.
Hình 7: Trong học máy thông thường (bên trái), thuật toán học tập trích xuất mẫu từ tập dữ
liệu và kiến thức “đã học” được lưu trong mô hình học máy - bộ não của hệ thống. Trong một
cuộc tấn công đầu độc (bên trái), kẻ tấn công thay đổi dữ liệu đào tạo để đầu đọc mô hình đã
học.
Cách thứ hai để xâm phạm dữ liệu thực hiện một cuộc tấn công là tấn công vào quá
trình thu thập tập dữ liệu. Điều này có hiệu quả độc hại dữ liệu ngay từ đầu, thay vì thay đổi
một tập dữ liệu hợp lệ khác như được hiển thị trong ví dụ trên.
Khả năng tấn công quá trình thu thập dữ liệu thể hiện sự khởi đầu của một kỷ nguyên mới về
thái độ đối với dữ liệu. Ngày nay, dữ liệu thường được coi là đại diện trung thực của thế giới
và đã được sử dụng thành công để dạy các hệ thống AI thực hiện các nhiệm vụ trong thế giới
này. Kết quả là, các hoạt động thu thập dữ liệu ngày nay giống như một mạng lưới: mọi thứ có
thể thu thập đều được thu thập. Lý do cho điều này là AI được cung cấp gần như hoàn toàn
bằng dữ liệu và việc có nhiều dữ liệu hơn thường tương quan với hiệu suất của hệ thống AI tốt
hơn.
Tuy nhiên, giờ đây bản thân quá trình thu thập dữ liệu có thể bị tấn công, người dùng
AI không còn có thể tin tưởng một cách mù quáng rằng dữ liệu của họ thu thập được là hợp lệ.
Dữ liệu đại diện cho trạng thái của một cái gì đó trên thế giới và trạng thái này có thể bị thay
đổi bởi kẻ thù. Điều này thể hiện một cách thức mới: ngay cả khi dữ liệu được thu thập bằng
thiết bị không ràng buộc và được lưu trữ an toàn, thì bản thân những gì được thể hiện trong dữ
liệu có thể đã bị kẻ thù thao túng để đầu độc các hệ thống AI ở hạ nguồn.
Nếu đối thủ biết các phương thức thu thập dữ liệu của người dùng AI, kẻ thù có thể tác
động đến quá trình thu thập để tấn công hệ thống AI thông qua một cuộc tấn công độc. Do đó,
thời đại của các cuộc tấn công của AI đòi hỏi những thái độ mới đối với dữ liệu hoàn toàn
ngược với thực tiễn thu thập dữ liệu hiện tại.

3.2 Chế tạo một cuộc tấn công đầu độc


Để thực hiện một cuộc tấn công đầu độc, kẻ tấn công nhằm mục tiêu vào một trong
những nội dung được sử dụng trong quá trình học tập: tập dữ liệu được sử dụng để học mô
hình, thuật toán được sử dụng để học mô hình hoặc chính mô hình đó. Bất kể phương pháp
nào, kết quả cuối cùng là một mô hình có một điểm yêu ẩn hoặc cửa hậu mà sau này có thể bị
tấn công bằng cách khai thác điểm yếu đã biết này.

3.2.1 Đầu độc tập dữ liệu


Cách trực tiếp nhất để đầu độc một mô hình là thông qua tập dữ liệu. Như đã thảo luận
trước đó, mô hình hoàn toàn phụ thuộc vào tập dữ liệu. Đầu độc tập dữ liệu chính là đầu độc
mô hình. Kẻ tấn công có thể thực hiện điều này bằng cách đưa dữ liệu không chính xác hoặc
được gắn nhãn sai vào tập dữ liệu. Bởi vì các thuật toán học máy học một mô hình bằng cách
nhận dạng các mẫu trong tập dữ liệu này, dữ liệu bị nhiễm độc sẽ làm gián đoạn quá trình học
tập này. Ngoài ra, đối thủ có thể thay đổi hành vi của mình để dữ liệu được thu thập ngay từ
đầu sẽ bị sai.
Việc phát hiện dữ liệu bị nhiễm độc để ngăn chặn các cuộc tấn công nhiễm độc có thể
rất khó khăn do quy mô của bộ dữ liệu. Tập dữ liệu thường chứa hàng triệu mẫu. Ngay cả khi
tập dữ liệu được thu thập và xác minh một cách riêng tư, kẻ tấn công vẫn có thể xâm nhập vào
hệ thống nơi dữ liệu đang được lưu trữ và đưa ra các mẫu bị nhiễm độc hoặc tìm cách làm hỏng
các mẫu hợp lệ khác.

3.2.2 Ngộ độc thuật toán


Một cách khác để thực hiện một cuộc tấn công đầu độc tận dụng các điểm yếu trong
các thuật toán được sử dụng để xây dựng mô hình. Mối đe dọa này đặc biệt rõ ràng trong
Federated Learning, một thuật toán học máy tiên tiến mới đang xuất hiện. [13] Federated
Learning là một phương pháp đào tạo mô hình học máy đồng thời bảo vệ quyền riêng tư của
dữ liệu của một cá nhân. Thay vì thu thập dữ liệu nhạy cảm có khả năng tập trung từ một nhóm
người dùng và sau đó kết hợp dữ liệu của họ thành một tập dữ liệu, Federated Learning thay
vào đó đào tạo một tập hợp các mô hình nhỏ trực tiếp trên thiết bị của mỗi người dùng và sau
đó kết hợp các mô hình nhỏ này với nhau để tạo thành mô hình cuối cùng. Bởi vì dữ liệu của
người dùng không bao giờ rời khỏi thiết bị của họ, quyền riêng tư của họ được bảo vệ và nỗi
sợ hãi của họ về việc các công ty có thể sử dụng sai dữ liệu của họ sau khi thu thập được sẽ
giảm bớt. Federated Learning đang được coi là một giải pháp có khả năng đột phá cho các vấn
đề chính sách công phức tạp xung quanh quyền riêng tư và dữ liệu của người dùng, vì nó cho
phép các công ty vẫn phân tích và sử dụng dữ liệu người dùng mà không cần thu thập dữ liệu
đó.
Tuy nhiên, có một điểm yếu trong thuật toán Federated Learning khiến nó dễ bị tấn
công mô hình. Khi những kẻ tấn công có quyền kiểm soát dữ liệu của chính họ trên thiết bị
của họ, họ có thể thao túng cả dữ liệu và thuật toán đang chạy trên thiết bị của họ để đầu độc
mô hình.

3.2.3 Đầu độc mô hình


Con đường cuối cùng để đầu độc một mô hình là chỉ cần thay thế một mô hình hợp
pháp bằng một mô hình bị nhiễm độc. Điều này rất đơn giản để thực hiện với một cuộc tấn
công mạng truyền thống. Sau khi được đào tạo, một mô hình chỉ là một tệp nằm trong máy
tính, không khác gì một hình ảnh hay tài liệu PDF. Những kẻ tấn công có thể hack hệ thống
nắm giữ các mô hình này, sau đó thay đổi tệp mô hình hoặc thay thế hoàn toàn bằng tệp mô
hình bị nhiễm độc. Về mặt này, ngay cả khi một mô hình đã được huấn luyện chính xác với tập
dữ liệu đã được xác minh kỹ lưỡng và không bị nhiễm độc, mô hình này vẫn có thể được thay
thế bằng một mô hình bị nhiễm độc.
KẾT LUẬN

Các cuộc tấn công bằng AI về cơ bản khác biệt về bản chất so với các cuộc tấn công an
ninh mạng. Không giống như các lỗ hổng bảo mật mạng truyền thống, các vấn đề tạo ra các
cuộc tấn công bằng AI không thể được “sửa” hoặc “vá”. Các lỗ hổng bảo mật mạng truyền
thống thường là kết quả lỗi của lập trình viên hoặc người dùng. Kết quả là, những lỗi này có
thể được xác định và sửa chữa. Ngược lại, vấn đề tấn công của AI mang tính nội tại hơn: chính
các thuật toán và sự phụ thuộc của chúng vào dữ liệu mới là vấn đề.
Sự khác biệt này có ảnh hưởng đáng kể đến chính sách phòng ngừa. Giảm thiểu các lỗ
hổng bảo mật mạng truyền thống là giải quyết “lỗi” hoặc đào tạo người dùng để ngăn chặn kẻ
thù giành quyền kiểm soát hoặc thao túng một hệ thống khác. Tuy nhiên, đối với các cuộc tấn
công AI, bản thân các thuật toán có những hạn chế cố hữu cho phép tấn công. Ngay cả khi một
mô hình AI được đào tạo để đáp ứng các tiêu chuẩn chính xác bằng cách sử dụng dữ liệu và
thuật toán chưa từng bị xâm phạm, nó vẫn có thể bị tấn công. Do đó, việc bảo vệ chống lại các
lỗ hổng thuật toán nội tại này sẽ yêu cầu một bộ công cụ và chiến lược khác nhau. Điều này
bao gồm cả việc thực hiện các bước để làm cho việc thực hiện các cuộc tấn công này trở nên
khó khăn hơn, cũng như hạn chế sự phụ thuộc và phạm vi tiếp cận của các ứng dụng được xây
dựng trên các hệ thống AI.
TÀI LIỆU THAM KHẢO

1, Bagdasaryan, Eugene, và cộng sự. “How to backdoor federated learning.” arXiv preprint
arXiv:1807.00459 (2018).
2, Eykholt, Kevin, và cộng sự. “Robust physical-world attacks on deep learning visual
classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
3, Eykholt, Kevin, và cộng sự. “Robust physical-world attacks on deep learning visual
classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
4, Sharif, Mahmood, và cộng sự. “Accessorize to a crime: Real and stealthy attacks on state-
of-the-art face recognition.” Proceedings of the 2016 ACM SIGSAC Conference on
Computer and Communications Security. ACM, 2016.
5, Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. “Explaining and harnessing
adversarial examples.” arXiv preprint arXiv:1412.6572 (2014)
6, https://www.belfercenter.org/publication/AttackingAI#footnote-071
7, Carlini, Nicholas, and David Wagner. “Audio adversarial examples: Targeted attacks on
speech-to-text.” 2018 IEEE Security and Privacy Workshops (SPW). IEEE, 2018.
8, Athalye, Anish, và cộng sự. “Synthesizing robust adversarial examples.” arXiv preprint
arXiv:1707.07397 (2017).
9, Link phần mềm: https://github.com/tensorflow/cleverhans
10, Goodfellow, Ian, và cộng sự. “Generative adversarial nets.” Advances in neural information
processing systems. 2014.
11, Liu, Yanpei, và cộng sự. “Delving into transferable adversarial examples and black-box
attacks.” arXiv preprint arXiv:1611.02770 (2016).
12, Ví dụ., “Machine Learning on AWS: Putting Machine Learning in the Hands of Every
Developer”, https://aws.amazon.com/machine-learning/
13, McMahan, H. Brendan, và cộng sự. “Communication-efficient learning of deep networks
from decentralized data.” arXiv preprint arXiv:1602.05629 (2016).
14, List, Mary, “33 Mind-Boggling Instagram Stats & Facts for 2018”, 19 February
2018, https://www.wordstream.com/blog/ws/2017/04/20/instagram-statistics
15, Meeker, Mary, “Internet Trends 2018”, 30 May 2018
https://www.slideshare.net/kleinerperkins/internet-trends-report-2018-9…
16, https://www.techrepublic.com/article/3-ways-criminals-use-artificial-intelligence-in-
cybersecurity-attacks/

You might also like