Professional Documents
Culture Documents
Trần Thị Hiền Bailuancuoiky
Trần Thị Hiền Bailuancuoiky
Hà Nội - 2022
MỤC LỤC
MỞ ĐẦU 3
I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO 4
1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại? 4
1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công 5
KẾT LUẬN 16
Kẻ khủng bố của thế kỷ XXI sẽ không nhất thiết sử dụng bom, uranium hay vũ khí sinh
học. Hắn ta sẽ chỉ cần sử dụng một công cụ đáng giá $1.5 - băng dính trong suốt để thực hiện
cuộc tấn công của hắn. Đặt một vài mảnh băng trong suốt nhỏ vào biển báo giao thông ở ngã
tư một cách kín đáo, hắn ta có thể biến biển báo dừng xe thành đèn xanh trong mắt một chiếc
ô tô tự lái một cách kỳ diệu. Thực hiện việc này ở một ngã tư nhộn nhịp sẽ gây ra tai nạn, nó
sẽ đưa hệ thống giao thông đi vào tắc nghẽn.
Các thuật toán trí tuệ nhân tạo đang được kêu gọi để đưa ra trong tương lai này có một
vấn đề: theo cách chúng được huấn luyện, chúng có thể bị tấn công và điều khiển bởi kẻ thù.
Cái chúng ta thấy ở tín hiệu đèn giao thông là tín hiệu dừng, nhưng hệ thống trí tuệ nhân tạo bị
tấn công lại nhận diện là tín hiệu đèn xanh. Điều này được coi là “Artificial intelligence attack”
(AI attack).
Lỗ hổng này là do những hạn chế cố hữu trong các phương pháp AI hiện đại, khiến
chúng có khả năng xảy ra một loạt các cuộc tấn công tàn khốc, ngấm ngầm nhưng nguy hiểm.
Trong một cuộc tấn công, kẻ thù có thể giành quyền kiểm soát hệ thống AI với một thao tác
nhỏ nhưng được lựa chọn cẩn thận, từ một mảnh băng trên biến báo dừng đến một hạt bụi kỹ
thuật số không thể nhìn thấy đối với con người. Theo cách khác, kẻ thù có thể đầu độc các hệ
thống AI, cài đặt các cửa hậu có thể được sử dụng tại thời điểm và địa điểm họ chọn để phá
hủy hệ thống. Cho dù đó là điều khiển ô tô vượt đèn đỏ, đánh lừa máy bay không người lái tìm
kiếm hoạt động của đối phương trong nhiệm vụ do thám hay lật đổ bộ lọc nội dung để đăng
tuyên truyền tuyển mộ khủng bố trên mạng xã hội, thì mối nguy hiểm này vẫn nghiêm trọng,
phổ biến và đã ở đây. Nội dung được tải lên Internet mỗi phút là một số lượng đáng kinh
ngạc. Hơn ba tỷ hình ảnh được chia sẻ mỗi ngày trên Internet. [14] bộ lọc nội dung dựa trên AI
đã trở thành công cụ chính, nếu không muốn nói là duy nhất, và đã được ngành công nghiệp
áp dụng rộng rãi. Ví dụ, Facebook đã xóa 21 triệu mẩu nội dung khiêu dâm chỉ trong quý đầu
tiên của năm 2018, 96% trong số đó bị gắn cờ bởi các thuật toán này. [15]
Tuy nhiên, không phải tất cả các ứng dụng của AI đều “tốt”, không phải tất cả các cuộc
tấn công của AI đều là “xấu”. Khi các chế độ chuyên quyền chuyển sang sử dụng AI như một
công cụ để giám sát và kiểm soát dân số của họ, các cuộc tấn công “AI” có thể được sử dụng
như một biện pháp bảo vệ chống lại sự áp bức của chính phủ.
Như vậy, báo cáo này sẽ giúp ta có cái nhìn tổng quát về cách mà kẻ tấn công có thể
tấn công hệ thống AI và sự khác biệt của tấn công AI với tấn công an ninh mạng truyền thống.
I, TỔNG QUAN VỀ CÁC CUỘC TẤN CÔNG TRÍ TUỆ NHÂN TẠO
Một cuộc tấn công bằng trí tuệ nhân tạo (AI attack) là sự thao túng có chủ đích của một
hệ thống AI với mục tiêu cuối cùng là làm cho nó hoạt động sai. Các cuộc tấn công này có thể
có các hình thức khác nhau tấn công vào các điểm yếu khác nhau trong các thuật toán cơ bản:
● Input Attacks: thao túng những gì được đưa vào hệ thống AI nhằm thay đổi đầu ra của hệ
thống để phục vụ mục tiêu của kẻ tấn công. Bởi vì cốt lõi của nó, mỗi hệ thống AI là một
cỗ máy đơn giản - nó nhận đầu vào, thực hiện một số tính toán và trả lại đầu ra - thao tác
đầu vào cho phép kẻ tấn công ảnh hưởng đến đầu ra của hệ thống.
● Poisoning Attacks: làm hỏng quá trình mà hệ thống AI được tạo ra để hệ thống đưa ra kết
quả sai theo cách mà kẻ tấn công mong muốn. Một cách trực tiếp để thực hiện một cuộc
tấn công đầu độc là làm hỏng dữ liệu được sử dụng trong quá trình huấn luyện. Điều này
là do các phương pháp học máy hiện đại cung cấp tri thức cho AI hoạt động bằng cách
“học” cách thực hiện một nhiệm vụ, nhưng chúng “học” từ một nguồn và chỉ một nguồn
dữ liệu. Các cuộc tấn công đầu độc cũng có thể ảnh hưởng đến chính quá trình tự học. Các
nghiên cứu cho thấy rằng việc nhiễm độc tập dữ liệu huấn luyện 3% dẫn đến giảm 11% độ
chính xác. [16]
1.1, Tại sao các cuộc tấn công trí tuệ nhân tạo lại tồn tại?
Các cuộc tấn công bằng AI tồn tại bởi vì có những hạn chế cơ bản trong các thuật toán
AI mà đối thủ có thể khai thác để làm cho hệ thống thất bại. Không giống như các cuộc tấn
công an ninh mạng truyền thống, những điểm yếu này không phải do lập trình viên hay người
dùng. Chúng chỉ là những thiếu sót của các thuật toán học máy tối tân hiện nay. Nói một cách
thẳng thắn hơn, các thuật toán khiến hệ thống AI hoạt động tốt là không hoàn hảo, và những
hạn chế mang tính hệ thống của chúng tạo cơ hội cho kẻ thù tấn công
Để biết tại sao lại như vậy, chúng ta cần hiểu cách các thuật toán làm nền tảng cho AI
hoạt động. Nhiều hệ thống AI hiện tại được hỗ trợ bởi máy học, là một tập hợp các kỹ thuật
trích xuất thông tin từ dữ liệu để “học” cách thực hiện một nhiệm vụ nhất định. Một thuật toán
học máy “học” tương tự như cách con người học. Con người học bằng cách xem nhiều ví dụ
về một đối tượng hoặc khái niệm trong thế giới thực và lưu trữ những gì học được trong não
để sử dụng sau này. Các thuật toán học máy “học” bằng cách xem nhiều ví dụ về một đối tượng
hoặc khái niệm trong tập dữ liệu và lưu trữ những gì đã học trong một mô hình để sử dụng sau
này.
Chìa khóa để hiểu các cuộc tấn công của AI là hiểu “học” trong học máy thực sự là gì
và quan trọng hơn nó không phải là gì. Nhớ lại rằng học máy “học” bằng cách xem nhiều ví dụ
về một khái niệm hoặc đối tượng trong tập dữ liệu. Với đủ dữ liệu, các mẫu được học có chất
lượng cao đến mức chúng thậm chí có thể làm tốt hơn con người trong nhiều nhiệm vụ. Tuy
nhiên trong quá trình “học” này đã tạo ra một lỗ hổng nghiêm trọng: nó hoàn toàn phụ thuộc
vào tập dữ liệu. Bởi vì tập dữ liệu là nguồn kiến thức duy nhất của mô hình, nếu nó bị kẻ tấn
công làm hỏng hoặc “đầu độc”, mô hình học được từ dữ liệu này sẽ bị xâm phạm. Những kẻ
tấn công có thể đầu độc tập dữ liệu để ngăn mô hình học các mẫu cụ thể, hoặc ngấm ngầm hơn
cài đặt các lối đi bí mật có thể được sử dụng để đánh lừa mô hình trong tương lai. [1]
Nhưng vấn đề không chỉ dừng lại ở đó. Bởi các mô hình học máy chỉ hoạt động dựa
trên dữ liệu có bản chất tương tự với dữ liệu được sử dụng trong quá trình học. Nếu được sử
dụng trên dữ liệu thậm chí có một chút khác biệt về bản chất so với các loại biến thể mà nó đã
thấy trong tập dữ liệu ban đầu, thì mô hình hoàn toàn có thể thất bại. Đây là một hạn chế lớn
mà kẻ tấn công có thể khai thác: bằng cách đưa vào các biến thể nhân tạo - chẳng hạn như một
đoạn băng hoặc các mẫu sai khác - kẻ tấn công có thể phá vỡ mô hình và kiểm soát hành vi của
nó dựa trên những gì mẫu nhân tạo được đưa vào.
1.2, Các đặc điểm của các thuật toán học máy khiến các hệ thống này dễ bị tấn công
● Máy học hoạt động bằng cách “học” các mẫu tương đối của đối tượng trong tập dữ liệu.
Trái với suy nghĩ của nhiều người, các mô hình học máy không “thông minh” hoặc không
có khả năng thực sự bắt chước khả năng của con người trong các nhiệm vụ, ngay cả những
nhiệm vụ mà chúng thực hiện tốt. Thay vào đó, chúng hoạt động bằng cách học các liên
kết thống kê và tương đối dễ phá vỡ. Những kẻ tấn công có thể khai thác tính chất này để
tạo ra các cuộc tấn công phá hủy hiệu suất của một mô hình.
● Học máy chỉ “học” bằng cách trích xuất các mẫu từ một tập hợp các ví dụ được gọi là tập
dữ liệu. Không giống như con người, mô hình học máy không có kiến thức cơ bản mà
chúng có thể tận dụng, toàn bộ kiến thức của chúng phụ thuộc hoàn toàn vào dữ liệu mà
chúng nhìn thấy. Đầu độc dữ liệu làm đầu độc hệ thống AI.
● Bản chất hộp đen của các thuật toán hiện đại làm cho việc kiểm tra chúng trở nên khó
khăn. Người ta còn hiểu tương đối ít về cách các thuật toán học máy hiện đại được sử dụng
rộng rãi, chẳng hạn như mạng nơ-ron sâu. Điều này gây khó khăn trong việc để biết liệu
một mô hình học máy đã bị xâm phạm,, hoặc thậm chí nếu nó đang bị tấn công hoặc chỉ
hoạt động không tốt. Đặc điểm này khiến cho các cuộc tấn công AI khác biệt so với các
vấn đề an ninh mạng truyền thống khi có định nghĩa rõ ràng về các lỗ hổng, ngay cả khi
chúng khó tìm thấy.
Tổng hợp lại, những điểm yếu này giải thích tại sao không có các bản sửa lỗi kỹ thuật
hoàn hảo cho các cuộc tấn công bằng AI. Những lỗ hổng này không phải là “lỗi” có thể được
vá hoặc sửa chữa như được thực hiện với các lỗ hổng bảo mật mạng truyền thống. Chúng là
những vấn đề sâu sắc ở trung tâm của chính AI.
Hình 2: Nguyên tắc phân loại các cuộc tấn công đầu vào. Trục hoành đặc trưng cho định dạng
của cuộc tấn công, trong thế giới vật lý hoặc kỹ thuật số. Trục tung đặc trưng cho khả năng
nhận biết được của cuộc tấn công, có thể nhận biết được đối với con người hay không.
Hình 3: Tạo một cuộc tấn công đầu vào có thể nhìn thấy. Một mảnh băng nhỏ được dán vào
đối tượng vật lý, khiến hệ thống AI phân loại sai hình ảnh với một sự thay đổi nhỏ về hình thức
của nó
Mặc dù các cuộc tấn công có thể nhìn thấy, được con người nhận thấy, nhưng chúng
vẫn có thể mang lại hiệu quả cao vì một số lý do. Đầu tiên, các cuộc tấn công có thể nhận thức
được không cần phải phô trương. Một cuộc tấn công có thể nhìn thấy dưới dạng một vài mảnh
băng được lựa chọn cẩn thận đặt trên biển báo dừng có thể được nhận biết, nhưng sẽ không
nhất thiết bị chú ý. Con người thường bỏ qua những thay đổi nhỏ trong môi trường của họ,
chẳng hạn như vẽ bậy. Do đó, các cuộc tấn công có thể nhận biết được có thể hoàn toàn không
được chú ý. Thứ hai, các cuộc tấn công có thể nhận biết được có thể được tạo ra để ẩn trong
tầm nhìn của con người. Một cuộc tấn công có thể nhìn thấy dưới dạng kính được thiết kế đặc
biệt hoặc một biểu tượng được chế tạo đặc biệt được thêm vào áo thun của một người sẽ được
nhận thấy, nhưng sẽ không bị nghi ngờ là một cuộc tấn công, nó ẩn nấp hiệu quả trong tầm
nhìn rõ ràng trong trường hợp này.
Ở đầu bên kia của trục khả năng hiển thị là các cuộc tấn công “không thể nhìn thấy
được” mà các giác quan của con người không nhìn thấy được. Các cuộc tấn công bất khả xâm
phạm có thể có nhiều hình thức. Đối với nội dung kỹ thuật số như hình ảnh, các cuộc tấn công
này có thể được thực hiện bằng cách rắc “digital dust” lên đầu mục tiêu. [5] Về mặt kỹ thuật,
bụi này ở dạng nhiễu động nhỏ, không thể phát hiện, được thực hiện đối với toàn bộ mục tiêu.
Mỗi phần nhỏ của mục tiêu được thay đổi một chút đến mức mắt người không thể cảm nhận
được sự thay đổi, nhưng tổng thể, những thay đổi này đủ để thay đổi hành vi của thuật toán
bằng cách phá vỡ các mẫu mà mô hình đã học. Hình dưới đây cho thấy cách một cuộc tấn công
không thể nhìn thấy được hình thành theo cách này. Một hình ảnh kỹ thuật số bình thường bị
thay đổi với các nhiễu loạn cấp pixel nhỏ, không thể nhìn thấy nằm rải rác khắp hình ảnh, tạo
thành hình ảnh tấn công. Trong khi hình ảnh thông thường sẽ được hệ thống AI phân loại chính
xác là “gấu trúc”, đối tượng tấn công được phân loại không chính xác là “khỉ”. Tuy nhiên, do
hình thức tấn công tạo ra những thay đổi nhỏ như vậy nên đối với mắt người, hình ảnh tấn công
trông giống hệt hình ảnh thông thường ban đầu.
Hình 4: Tạo một cuộc tấn công đầu vào vô hình. Một lượng nhiễu nhỏ mà mắt người không
nhìn thấy được sẽ được thêm vào toàn bộ hình ảnh, khiến hệ thống AI phân loại sai hình ảnh
mà không thay đổi hình thức của nó.
Các cuộc tấn công không thể cưỡng lại không chỉ giới hạn ở các đối tượng kỹ thuật số.
Ví dụ, các mẫu tấn công có thể được thêm vào theo những cách không thể nhìn thấy vào chính
một đối tượng vật lý. Các nhà nghiên cứu đã chỉ ra rằng một con rùa in 3D với kiểu tấn công
đầu vào không thể nhìn thấy có thể đánh lừa các thiết bị phát hiện đối tượng dựa trên AI. Mặc
dù việc phát hiện rùa có thể không gây hậu quả đến tính mạng, những chiến lược tương tự áp
dụng cho súng in 3D cũng có thể. Trong lĩnh vực âm thành, âm thanh có cường độ cao mà tai
người không thể nghe thấy nhưng có thể thu được bằng micro có thể được sử dụng để tấn công
các hệ thống AI dựa trên âm thánh, chẳng hạn như trợ lý kỹ thuật số.
Các cuộc tấn công không thể nhìn thấy này đặc biệt nguy hiểm từ quan điểm bảo mật.
Không giống như các cuộc tấn công nhìn thấy được, con người không có cách nào để quan sát
xem mục tiêu có bị thao túng hay không. Điều này đặt ra một rào cản để phát hiện các cuộc tấn
công này.
Các cuộc tấn công không nhìn thấy được có khả năng áp dụng cao đối với các mục tiêu
mà kẻ thù có toàn quyền kiểm soát, chẳng hạn như hình ảnh kỹ thuật số hoặc các đối tượng
được chế tạo. Ví dụ: một người dùng đăng một hình ảnh bất hợp pháp, chằng hạn như một hình
ảnh chứa nội dung khiêu dâm trẻ em, có thể thay đổi hình ảnh để nó tránh bị bộ lọc nội dung
dựa trên AI phát hiện, nhưng cũng không thay đổi về mặt hình ảnh so với góc nhìn của con
người. Điều này cho phép kẻ tấn công không bị kiểm soát và đối với tất cả các mục đích thực
tế, phân phối nội dung không thay đổi mà không bị phát hiện.
2.2.2 Định dạng
Tiếp theo chúng ta thảo luận về trục định dạng. Trên một đầu của trục là các cuộc tấn
công “vật lý”. Đây là những cuộc tấn công trong đó mục tiêu bị tấn công tồn tại trong thế giới
vật chất. Ví dụ các cuộc tấn công trên trợ lý kỹ thuật số được điều khiển bằng giọng nói, nơi
một âm thanh đã được sử dụng để kích hoạt hành động từ trợ lý kỹ thuật số. [7] Thay đổi được
thực hiện trực tiếp hoặc đặt trên các mục tiêu này để thực hiện một cuộc tấn công. Ví dụ về các
cuộc tấn công vật lý vào các đối tượng trong thế giới thực được thể hiện trong hình bên dưới.
Trong một số cài đặt, các cuộc tấn công vào các đối tượng vật lý có thể yêu cầu các
mẫu tấn công lớn hơn, thô hơn. Điều này là do các đối tượng vật lý này trước tiên phải được
số hóa, chẳng hạn như với máy ảnh hoặc cảm biến, để được đưa vào thuật toán AI, một quy
trình có thể phá hủy chi tiết ở mức độ tốt hơn. Tuy nhiên, ngay cả với yêu cầu số hóa này, các
cuộc tấn công vẫn có thể khó nhận biết. “Rùa tấn công” được phân loại không chính xác thành
súng trường trong ví dụ minh họa dưới đây là một trong những ví dụ về đòn tấn công vật lý
gần như vô hình. Con rùa in 3D được sản xuất để có một hoa văn rất tinh tế, kết hợp tự nhiên
với các hoa văn mai và vảy của nó, nhưng luôn đánh lừa người phân loại bất kể góc độ và vị
trí mà nó được máy ảnh quan sát. [8] Bằng cách “che dấu” đối tượng trong mô hình tấn công
này, nó có thể đánh lừa hệ thống AI mà không xuất hiện dưới dạng một cuộc tấn công đối với
người quan sát.
Hình 5: Ví dụ về các cuộc tấn công vật lý vào các đối tượng trong thế giới thực.
Ở đầu kia của trục định dạng là các cuộc tấn công “kỹ thuật số”. Đây là các cuộc tấn
công trong đó mục tiêu bị tấn công là tài sản kỹ thuật số. Ví dụ bao gồm hình ảnh, video, bài
đăng trên mạng xã hội, nhạc, tệp và tài liệu. Không giống như các mục tiêu vật lý trước tiên
phải được cảm biến và số hóa, các mục tiêu kỹ thuật số được đưa trực tiếp vào trạng thái ban
đầu của hệ thống AI. Điều này cho phép kẻ thù mở rộng lựa chọn các cuộc tấn công và giảm
bớt khó khăn trong việc tạo ra một cuộc tấn công thành công, vì chúng không cần tính đến việc
có thể làm sai lệch kiểu tấn công. Do đó, các cuộc tấn công kỹ thuật số đặc biệt phù hợp với
khả năng không nhìn thấy được. Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹ thuật
số được thể hiện trong hình bên dưới.
Hình 6: Ví dụ về các cuộc tấn công kỹ thuật số vào hình ảnh kỹ thuật số. Các cuộc tấn công
kỹ thuật số có thể được nhận ra, như với những chiếc kính chồng lên hình ảnh của một người
nổi tiếng (ảnh ở giữa), hoặc không thể nhìn thấy được, như với hình ảnh gấu trúc và vịt được
hiển thị ở đây.
Một cuộc tấn công đầu vào tương đối dễ thực hiện nếu kẻ tấn công có quyền truy cập
vào mô hình AI đang bị tấn công. Được trang bị điều này, kẻ tấn công có thể tự động tạo ra các
cuộc tấn công bằng cách sử dụng các phương pháp tối ưu hóa đơn giản. Đã có sẵn phần mềm
công khai thực hiện các phương pháp này. [9] Kẻ tấn công cũng có thể sử dụng Generative
Adversarial Networks (GANs), một phương pháp được tạo ra đặc biệt để khai thác điểm yếu
trong mô hình AI, để thực hiện cuộc tấn công này. [10]
Ở khía cạnh vô hại, các mô hình thường được công khai vì chúng đã được các nhà
nghiên cứu hoặc công ty tối ưu hóa cho một nhiệm vụ chung quan trọng, chằng hạn như nhận
dạng đối tượng và sau đó công khai cho mọi người sử dụng như một phần của “mã nguồn mở”.
Ở khía cạnh gây hại, những kẻ tấn công có thể hack hệ thống lưu trữ mô hình để lấy cắp nó.
Bản thân mô hình chỉ là một tệp kỹ thuật số trên máy tính, không khác gì một hình ảnh hay tài
liệu, và do đó có thể bị đánh cắp giống như bất kỳ tệp nào khác trên máy tính. Bởi vì các mô
hình không phải lúc nào cũng được coi là tài sản có độ nhạy cảm cao, các hệ thống nắm giữ
các mô hình này có thể không có mức độ bảo vệ an ninh mạng cao.
Ngay cả khi kẻ tấn công không có mô hình, vẫn có thể thực hiện một cuộc tấn công đầu
vào. Nếu những kẻ tấn công có quyền truy cập vào tập dữ liệu được sử dụng để đào tạo mô
hình, chúng có thể sử dụng nó để xây dựng bản sao mô hình của riêng chúng và sử dụng “mô
hình sao chép” này để thực hiện cuộc tấn công của chúng. Các nhà nghiên cứu đã chỉ ra rằng
các cuộc tấn công được thực hiện bằng cách sử dụng các “mô hình sao chép” này có thể dễ
dàng chuyển sang các mô hình được nhắm mục tiêu ban đầu. [11] Có một số tình huống phổ
biến trong đó kẻ tấn công sẽ có quyền truy cập vào tập dữ liệu. Giống như bản thân các mô
hình, tập dữ liệu được cung cấp rộng rãi như một phần của phong trào mã nguồn mở, hoặc
tương tự có thể lấy được bằng cách hack hệ thống lưu trữ tập dữ liệu này. Trong một số trường
hợp hạn chế hơn khi tập dữ liệu không có sẵn, những kẻ tấn công có thể biên dịch tập dữ liệu
tương tự của chúng và sử dụng tập dữ liệu tương tự này để xây dựng “mô hình sao chép” thay
thế.
Trong một trường hợp ngày càng hạn chế hơn khi những kẻ tấn công không có quyền
truy cập vào mô hình hoặc tập dữ liệu, nhưng có quyền truy cập vào đầu ra của mô hình, chúng
vẫn có thể thực hiện một cuộc tấn công. Tình huống này thường xảy ra trong thực tế, với các
doanh nghiệp cung cấp Trí tuệ nhân tạo dưới dạng Dịch vụ thông qua API công khai. [12] Dịch
vụ này cung cấp cho người dùng kết quả đầu ra của một mô hình AI được đào tạo cho một tác
vụ cụ thể, chẳng hạn như nhận dạng đối tượng. Trong khi các mô hình này và bộ dữ liệu liên
quan của chúng được giữ kín, những kẻ tấn công có thể sử dụng thông tin đầu ra từ các API
của chúng để thực hiện một cuộc tấn công. Điều này là do thông tin đầu ra này thay thế nhu
cầu có mô hình hoặc tập dữ liệu.
Trong trường hợp khó nhất khi không có gì về mô hình, tập dữ liệu hoặc đầu ra của nó
cho kẻ tấn công, kẻ tấn công vẫn có thể cố gắng thực hiện các cuộc tấn công bằng cách trial-
and-error. Ví dụ: kẻ tấn công đang cố gắng đánh bại bộ lọc nội dung trực tuyến có thể tiếp tục
tạo ra các mẫu tấn công ngẫu nhiên và tải lên nội dung để xem nó có bị xóa hay không. Sau khi
tìm thấy một mẫu tấn công thành công, nó có thể được sử dụng trong các cuộc tấn công trong
tương lai.
Các cuộc tấn công bằng AI về cơ bản khác biệt về bản chất so với các cuộc tấn công an
ninh mạng. Không giống như các lỗ hổng bảo mật mạng truyền thống, các vấn đề tạo ra các
cuộc tấn công bằng AI không thể được “sửa” hoặc “vá”. Các lỗ hổng bảo mật mạng truyền
thống thường là kết quả lỗi của lập trình viên hoặc người dùng. Kết quả là, những lỗi này có
thể được xác định và sửa chữa. Ngược lại, vấn đề tấn công của AI mang tính nội tại hơn: chính
các thuật toán và sự phụ thuộc của chúng vào dữ liệu mới là vấn đề.
Sự khác biệt này có ảnh hưởng đáng kể đến chính sách phòng ngừa. Giảm thiểu các lỗ
hổng bảo mật mạng truyền thống là giải quyết “lỗi” hoặc đào tạo người dùng để ngăn chặn kẻ
thù giành quyền kiểm soát hoặc thao túng một hệ thống khác. Tuy nhiên, đối với các cuộc tấn
công AI, bản thân các thuật toán có những hạn chế cố hữu cho phép tấn công. Ngay cả khi một
mô hình AI được đào tạo để đáp ứng các tiêu chuẩn chính xác bằng cách sử dụng dữ liệu và
thuật toán chưa từng bị xâm phạm, nó vẫn có thể bị tấn công. Do đó, việc bảo vệ chống lại các
lỗ hổng thuật toán nội tại này sẽ yêu cầu một bộ công cụ và chiến lược khác nhau. Điều này
bao gồm cả việc thực hiện các bước để làm cho việc thực hiện các cuộc tấn công này trở nên
khó khăn hơn, cũng như hạn chế sự phụ thuộc và phạm vi tiếp cận của các ứng dụng được xây
dựng trên các hệ thống AI.
TÀI LIỆU THAM KHẢO
1, Bagdasaryan, Eugene, và cộng sự. “How to backdoor federated learning.” arXiv preprint
arXiv:1807.00459 (2018).
2, Eykholt, Kevin, và cộng sự. “Robust physical-world attacks on deep learning visual
classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
3, Eykholt, Kevin, và cộng sự. “Robust physical-world attacks on deep learning visual
classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
4, Sharif, Mahmood, và cộng sự. “Accessorize to a crime: Real and stealthy attacks on state-
of-the-art face recognition.” Proceedings of the 2016 ACM SIGSAC Conference on
Computer and Communications Security. ACM, 2016.
5, Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. “Explaining and harnessing
adversarial examples.” arXiv preprint arXiv:1412.6572 (2014)
6, https://www.belfercenter.org/publication/AttackingAI#footnote-071
7, Carlini, Nicholas, and David Wagner. “Audio adversarial examples: Targeted attacks on
speech-to-text.” 2018 IEEE Security and Privacy Workshops (SPW). IEEE, 2018.
8, Athalye, Anish, và cộng sự. “Synthesizing robust adversarial examples.” arXiv preprint
arXiv:1707.07397 (2017).
9, Link phần mềm: https://github.com/tensorflow/cleverhans
10, Goodfellow, Ian, và cộng sự. “Generative adversarial nets.” Advances in neural information
processing systems. 2014.
11, Liu, Yanpei, và cộng sự. “Delving into transferable adversarial examples and black-box
attacks.” arXiv preprint arXiv:1611.02770 (2016).
12, Ví dụ., “Machine Learning on AWS: Putting Machine Learning in the Hands of Every
Developer”, https://aws.amazon.com/machine-learning/
13, McMahan, H. Brendan, và cộng sự. “Communication-efficient learning of deep networks
from decentralized data.” arXiv preprint arXiv:1602.05629 (2016).
14, List, Mary, “33 Mind-Boggling Instagram Stats & Facts for 2018”, 19 February
2018, https://www.wordstream.com/blog/ws/2017/04/20/instagram-statistics
15, Meeker, Mary, “Internet Trends 2018”, 30 May 2018
https://www.slideshare.net/kleinerperkins/internet-trends-report-2018-9…
16, https://www.techrepublic.com/article/3-ways-criminals-use-artificial-intelligence-in-
cybersecurity-attacks/