Professional Documents
Culture Documents
GradCAM을이용한적대적예제생성기법연구
GradCAM을이용한적대적예제생성기법연구
878-885)
https://doi.org/10.9717/kmms.2022.25.6.878
ABSTRACT
Research in the field of computer vision based on deep learning is being actively conducted. However,
deep learning-based models have vulnerabilities in adversarial attacks that increase the model's mis-
classification rate by applying adversarial perturbation. In particular, in the case of FGSM, it is recog-
nized as one of the effective attack methods because it is simple, fast and has a considerable attack
success rate. Meanwhile, as one of the efforts to visualize deep learning models, Grad-CAM enables
visual explanation of convolutional neural networks. In this paper, I propose a method to generate ad-
versarial examples with high attack success rate by applying Grad-CAM to FGSM. The method choo-
ses fixels, which are closely related to labels, by using Grad-CAM and add perturbations to the fixels
intensively. The proposed method has a higher success rate than the FGSM model in the same pertur-
bation for both targeted and untargeted examples. In addition, unlike FGSM, it has the advantage that
the distribution of noise is not uniform, and when the success rate is increased by repeatedly applying
noise, the attack is successful with fewer iterations.
※ Corresponding Author : Se Hyeok Kang, Address: Receipt date : Mar. 16, 2022, Revision date : May 9, 2022
(770-843) Changha-ri 135-1, Yeongcheon-si, Gyeong- Approval date : Jun. 3, 2022
sangbuk-do, Republic of Korea, TEL : ***-****-****
†Dept. of Electrical Engineering, Korea Armay Academy
E-mail : kangsehyeok0329@gmail.com at Yeong-cheon
Grad-CAM을 이용한 적대적 예제 생성 기법 연구 879
Signed Method)[10]의 성능을 높이기 위해 Grad- 공격 대상 모델이 특정한 라벨값으로 적대적 예제를
CAM을 적용하여 적대적 샘플을 생성하는 기법을 분류하도록 유도하는 공격방법이다. 반면, untarget-
제안한다. FGSM은 신속한 적대적 예제 생성방법으 ted attack은 특정한 클래스 없이 오분류 하는 것만
로 이미지에 노이즈를 주입하여 딥러닝 기반 모델의 을 목적으로 한다. 예를 들면, Fig. 3에서 ‘panda’의
오분류를 유도하며, 한번의 변조만으로 효과가 있다. 이미지를 ‘cat’과 같이 특정 라벨값으로 유도하는 방
하지만, FGSM은 이미지 전체에 임의의 노이즈를 주 법은 targetted attack이 되며, ‘panda’이외의 다른 어
입하기 때문에 불필요한 픽셀에도 노이즈를 주입하 떠한 라벨이어도 상관이 없을 경우 untargetted at-
and PANDA)[11]과 CIFAR10[12] 데이터셋을 이용 [15], FGSM[8]이 있다. FGSM은 Goodfellow et. al
하여 적대적 샘플을 생성하고 공격 성공률과 왜곡평 (2014)[8]이 제안한 방법으로 신경망의 기울기(grad-
균을 FGSM모델과 비교한다. 또한, 제안 모델의 공 ient)를 이용한다. Fig. 1은 FGSM으로 생성된 적대
격 성공률을 높이기 위해 반복하여 노이즈를 생성하 적 예제에 대한 예시이다. 원본 이미지는 높은 확률로
는 모듈을 제안한다. “panda”로 분류하는 반면, 노이즈가 추가된 적대적
본 논문의 구성은 다음과 같다. 2장에서는 적대적 예제는 높은 확률로 “cat”으로 분류를 한다. FGSM
2. 관련 연구
2.1 적대적 공격과 적대적 예제
적대적 공격은 딥러닝 모델의 인공신경망의 취약
점을 이용하여 노이즈(Perturbation)를 생성하여 의
(a) (b) (c)
도적으로 모델에 오분류를 이끌어내는 과정을 의미
Fig. 1. An example of creating an adversarial example.
한다. 적대적 예제는 딥러닝 모델의 오판단을 유도하 (a) Original image, (b) Noise, and (c) An adver-
는 입력값을 의미한다. 적대적 공격은 크게 공격 대 sarial example.
880 멀티미디어학회 논문지 제25권 제6호(2022. 6)
는 원본 이미지( )의 픽셀에 대한 공격 대상 모델
손실 함수의 기울기이며, 는 원본 입력 레이블. 는
모델의 파라미터이다. 이를 이용하여 정답 레이블( ) (a) (b)
로부터 예측값이 멀어지는 방향으로 노이즈를 추가 Fig. 2. An example of Grad-CAM. (a) An original image
and (b) An image added Grad-CAM.
한 적대적 예제를 생성한다. 반면, 식 (2)는 목표를
정한(targeted) 적대적 예제 생성 식이다. 공격 대상
라고 할수 있다. Grad-CAM의 장점은 컨볼루션 층
모델이 공격자가 원하는 목표( )으로 적대적 예
에 제한이 없이 어떤 컨볼루션 층에도 적용이 가능하
제를 분류하도록 하는 방법으로 출력값이 목표
다는 점이다. Fig. 2는 Grad-CAM이 적용된 예시이
( )로 수렴하도록 적대적 예제를 생성한다. FGSM
다. 좌측 사진(a)은 원본 이미지이고, 우측 사진(b)은
은 기본적으로 원본 이미지를 한번만 조작하는
원본이미지에 Grad-CAM이 추가된 값이다. 각 픽셀
one-step 공격 방법이다. 따라서, 생성 속도가 빠르
이 합성곱 신경망이 분류를 하는데 영향을 미친 정도
다는 장점이 있지만, 모델에 최적화 되기 어렵고 공
에 따라 다른 색상으로 표시된 것을 알 수 있다.
격성공률이 낮다는 단점이 있다[16].
Grad-CAM의 공식은 식 (3),(4)와 같다.
′ ×∇ (1)
본 연구에서는 FGSM의 장점을 극대화하고 단점
(4)
중치를 다르게 하여 효과적인 공격 예제를 생성하는 을 실시하고 공격 실패시 노이즈를 추가하여 반복적
알고리즘을 제안한다. FGSM은 동일한 perturba- 으로 예제를 생성하는 알고리즘을 통해 FGSM의 공
tion( )에 함수를 통해 얻어진 기울기(-1 또는 1) 격 성공률을 높인다. 제안 방법의 구성은 아래 Fig.
리즘을 제안한다. 식 (5)는 FGSM에 Grad-CAM이 [11]을 사용하였다. CIFAR10은 일반적으로 컴퓨터
적용된 목표를 정하지 않은(untargeted) 적대적 예제 비전 알고리즘의 훈련과 평가를 위해 사용되는 이미
생성 알고리즘의 식이다. 는 클래스( )에 지 모음으로 서로 다른 10개의 클래스를 가진 [32×
대한 입력 이미지의 Grad-CAM값으로
값 32]의 크기의 이미지가 클래스 별로 6,000개씩 총
에 따라 perturbation( ) 값은 픽셀별로 서로 다르게 60,000개의 데이터로 구성된다. Animal Image Da-
(a) (b)
Fig. 6. Value distribution of noise. (a) Value distribution of noise generated by FGSM and (b) Value distribution
of noise with Grad-Cam added.
Grad-CAM을 이용한 적대적 예제 생성 기법 연구 883
0.001 0.005 0.01 0.001 0.005 0.01 0.001 0.005 0.01 0.001 0.005 0.01
Attack FGSM 2.2 15.1 25.3 14.1 62.1 84.0 8.7 59.0 73.0 15.7 73.7 84.7
success
rate(%) Proposed 3.8 20.2 29.6 21.3 74.9 90.8 17.0 69.3 75.3 27.3 81.0 86.3
Noise FGSM 0.08 0.42 0.85 0.08 0.42 0.84 0.25 1.27 2.54 0.25 1.27 2.54
ratio Proposed 0.12 0.59 1.18 0.12 0.59 1.17 0.37 1.86 3.72 0.37 1.86 3.72
중치 만큼의 노이즈가 추가되기 때문에 왜곡 평균이 기본 모델이 생성한 예제의 차이를 구분하기 어렵다.
동일 perturbation에서 상대적으로 높다. 따라서, 제안 모델이 생성한 적대적 예제의 성공
시각적으로 구분이 가능한지에 대한 여부는 정량 률이 높을 뿐만 아니라 두 모델이 생성한 적대적 예
적인 평가가 제한되어 정성적인 비교를 위해 생성된 제를 사람이 구분하기에는 어렵기 때문에 왜곡평균
적대적 예제를 Fig. 7에 나타낸다. epsilon이 0.02보 증가가 갖는 단점보다 성공률이 높아진다는 점에서
다 작은 경우에는 육안으로 노이즈를 식별하는 것 유의미하다 할 수 있다.
조차 어려워 비교를 위해 epsilon을 0.02로 설정하고 FGSM을 반복적으로 적용하여 공격의 성공률을
적대적 예제를 생성하였다. 그럼에도 불구하고 왜곡 높인 공격의 결과는 Table 2와 같다. CIFAR10의 경
평균(Noise ratio)은 제안 모델이 생성한 예제가 더 우 테스트 데이터 중 공격 대상 모델이 정확하게 분
큼에도 육안으로는 제안 모델이 생성한 예제와 FGSM 류한 데이터 중 클래스별 30개씩 총 300개의 데이터
Targeted Targeted
Method
perturbation( ) perturbation( )
Grad-CAM을 적용할시 반복 횟수가 줄어드는 것을 [ 3 ] W. Liu, Z. Wang, X. Liu, N. Zeng, Y. Liu, and
이 증가하였지만, Grad-CAM을 적용하여 생성한 적 N eurocomputing, Vol. 234, pp. 11-26, 2017.
대적 예제와 그렇지 않은 예제의 시각적인 구분이 [ 4 ] P.N. Druzhkov and V.D. Kustikova, “A Survey
어려운 것을 확인할 수 있었다. 따라서, 적대적 예제 of Deep Learning Methods and Software
생성을 위해 중요한 요소인 사람 눈에 구별되지 않아 Tools for Image Classification and Object
성한 예제와 FGSM이 생성한 예제가 크게 다르지 Analysis, Vol. 26, No. 1, pp. 9-15, 2016.
Grad-CAM을 이용한 적대적 예제 생성 기법 연구 885
[ 5 ] H. Kim, D. Jung, and B. Wook, “Exploiting the Security and Cryptology, Vol. 31, No. 2, pp.
Vulnerability of Deep Learning-Based Artifi- 5-12, 2021.
cial Intelligence Models in Medical Imaging: [14] M. Dezfooli, S. Mohsen, A. Fawzi, and P.
Adversarial Attacks,” J ournal of the Korean Frossard, “DeepFool: a Simple and Accurate
Society of Radiology, Vol. 80, No. 2, pp. 259- Method to Fool Deep Neural Networks,” P ro-
World Attacks on Deep Learning Models,” [15] N. Carlini and D. Wagner, “Towards Evaluat-
P roceedings of the IEEE Conference on Com- ing the Robustness of Neural Networks,”
puter Vision and P attern Recognition, pp. I EEE Symposium on Security and P rivacy,
1625-1634, 2018. pp. 39-57. 2017.
[ 7 ] R.R. Selvaraju, M. Cogswell, A. Das, R. [16] H. Kwon, S. Park, and Y. Kim, “Rapid Mi-
Visual Explanations from Deep Networks via Deep Neural Network,” J ournal of Convert-
Gradient-based Localization,” P roceeding of gence Security, Vol. 20, No. 2, pp. 111-122,
the I EEE I nternational Conference on Com- 2020.
puter Vision, pp. 168-626, 2017. [17] R. Wiyatno and A. Xu, “Maximal Jacobian-
[ 8 ] D. No and T. Kim, “Fingertip Detection based Saliency Map Attack,” arXiv preprint,
J ournal of the Korea Computer Graphics [18] J.Y. Kim, S.H. Jung, and C.B. Sim, “A Study
Society, Vol. 25, No. 5, pp. 11-20, 2019. on Object Detection using RestructuredRetina
[ 9 ] Y. Kim and E. Kim, “Real-Time Fire Detection Net,” J ournal of Korea M ultimedia Society,
based on CNN and Grad-CAM,” J ournal of Vol. 23, No. 12 pp. 1531-1539, 2020
the Korea I nstitute of I nformation and Com- [19] H. Ahn, S. Son, S. Yu, Y. Suh, J. Son, S. Lee,
munication Engineering , Vol. 22, No. 12, pp. Y. Chung, and D. Park, “Accurate Pig Detec-
[10] I.J. Goodfellow, J. Shlens, and C. Szegedy, J ournal of Korea Multimedia Society, Vol. 24,
“Explaining and Harnessing Adversarial Ex- No. 7, pp. 890-902, 2021.
https://www.kaggle.com/ashishsaxena2209/ 강 세 혁
animal-image-datasetdog-cat-and-panda
2015년 2월
육군사관학교 정보과
(accessed March 14, 2022). 학 학사
[12] The CIFAR-10 Dataset, https://www.cs.tor- 2020년 5월 Arizona State