GradCAM을이용한적대적예제생성기법연구

Journal of Korea Multimedia Society Vol. 25, No. 6, June 2022(pp.
878-885)
https://doi.org/10.9717/kmms.2022.25.6.878
Grad-CAM 을 이용한 적대적 예제 생성 기법 연구

강 세 혁†
Research of a Method of Generating an Adversarial

Sample Using Grad-CAM
Sehyeok Kang†
ABSTRACT
Research in the field of computer vision based on deep learning is being actively conducted. However,
deep learning-based models have vulnerabilities in adversarial attacks that increase the model's mis-
classification rate by applying adversarial perturbation. In particular, in the case of FGSM, it is recog-
nized as one of the effective attack methods because it is simple, fast and has a considerable attack
success rate. Meanwhile, as one of the efforts to visualize deep learning models, Grad-CAM enables
visual explanation of convolutional neural networks. In this paper, I propose a method to generate ad-
versarial examples with high attack success rate by applying Grad-CAM to FGSM. The method choo-
ses fixels, which are closely related to labels, by using Grad-CAM and add perturbations to the fixels
intensively. The proposed method has a higher success rate than the FGSM model in the same pertur-
bation for both targeted and untargeted examples. In addition, unlike FGSM, it has the advantage that
the distribution of noise is not uniform, and when the success rate is increased by repeatedly applying
noise, the attack is successful with fewer iterations.
Key words: Deep Learning, Adversarial Example, Evasion Attack, Grad-CAM
1. 서 론 만아니라, Inception, Faster RCNN등의 고성능의 모

델들이 개발·연구되고 있다.
딥러닝(Deep Learning)[1]은 인공신경망(Artifi- 그러나, 만연해진 딥러닝 기반 알고리즘에도 취약
cial Neural Network, ANN)을 기반으로 하여 학습 점이 존재한다. 적대적 공격(Adversarial Attack)은
을 수행하는 머신러닝 기법 중 하나로 다양한 분야에 딥러닝 기반 분류 모델에 대한 효과적인 공격 방법이

서 사용중이다. 특히, 기계의 시각을 담당하는 컴퓨 다[5]. 적대적 공격은 딥러닝 모델에 적대적 교란
터 비전에서의 활용이 두드러지며, 이미지 또는 비디 (Adversarial Perturbation)을 적용하여 모델의 오분
오 상의 객체 인식[2,18,19], 패턴 인식[3] 이미지 분 류율을 높이는 공격방법이다. 그 중 회피공격(Eva-
류[4]등 다양한 영역에서 좋은 성능을 보여주고 있 sion Attack)은 인간이 식별하기 어려운 노이즈를 삽
다. 대표적인 객체 검출 알고리즘 대회인 ILSVRC에 입하여 데이터를 변조시켜 모델의 인식률을 떨어트
서 2015년에 우승한 ResNet의 경우 모델이 예측한 린다. 이러한 공격방법은 비교적 간단하면서도 치명
5개의 정답에 대한 오분류율(Top-5 Error)가 3.57% 적인 효과를 가져오는데, 도로교통 표지판에 적대적
에 불과할 정도로 정확한 알고리즘이 개발되었다. 뿐 샘플을 적용하여 자율주행차의 오판단을 유도하는
※ Corresponding Author : Se Hyeok Kang, Address: Receipt date : Mar. 16, 2022, Revision date : May 9, 2022
(770-843) Changha-ri 135-1, Yeongcheon-si, Gyeong- Approval date : Jun. 3, 2022
sangbuk-do, Republic of Korea, TEL : ***-****-****
†Dept. of Electrical Engineering, Korea Armay Academy
E-mail : kangsehyeok0329@gmail.com at Yeong-cheon
Grad-CAM을 이용한 적대적 예제 생성 기법 연구 879
연구[6] 등이 대표적인 예이다. 상 모델의 정보양에 따른 분류, 공격 목표에 따른 분

한편, 딥러닝 기반 모델을 이해하려는 노력으로 류로 나눌 수 있다[13].
다양한 연구가 진행되고 있다. Grad-CAM[7]은 합 공격 대상 모델의 정보양에 따른 분류는 화이트
성곱 신경망을 시각화적인 설명(visual explanation) 박스 공격과 블랙 박스 공격으로 구분된다. 화이트
을 가능하게 한다. Grad-CAM은 기울기(gradient)를 박스 공격은 공격자가 대상 모델에 대한 정보(모델
이용하여 특징 맵(feature map)의 원소가 출력(output 의 구성, 가중치 등)를 알고 있는 상황에서 실시하는
class)에 미치는 영향을 도출한다. 최근에는 Grad- 공격으로 공격 성공률이 높다. 반면, 블랙 박스 공격
CAM을 적용하여 시각적으로 활용하여 탐지의 정확 은 공격 대상 모델에 대한 정보 없이 실시하는 공격
도를 높이는 연구가 진행되었다[8,9]. 으로 화이트 박스 공격과 비교했을시 현실적인 공격
본 논문에서는, 적대적 예제(Adversarial Exam- 방법이다. 공격 목표에 따른 분류는 targeted attack
ple) 생성 방법 중 하나인 FGSM(Fast Gradient 과 untargetted attack이 있다. Targetted attack은
Signed Method)[10]의 성능을 높이기 위해 Grad- 공격 대상 모델이 특정한 라벨값으로 적대적 예제를
CAM을 적용하여 적대적 샘플을 생성하는 기법을 분류하도록 유도하는 공격방법이다. 반면, untarget-
제안한다. FGSM은 신속한 적대적 예제 생성방법으 ted attack은 특정한 클래스 없이 오분류 하는 것만
로 이미지에 노이즈를 주입하여 딥러닝 기반 모델의 을 목적으로 한다. 예를 들면, Fig. 3에서 ‘panda’의
오분류를 유도하며, 한번의 변조만으로 효과가 있다. 이미지를 ‘cat’과 같이 특정 라벨값으로 유도하는 방
하지만, FGSM은 이미지 전체에 임의의 노이즈를 주 법은 targetted attack이 되며, ‘panda’이외의 다른 어
입하기 때문에 불필요한 픽셀에도 노이즈를 주입하 떠한 라벨이어도 상관이 없을 경우 untargetted at-
여 원본이미지와 전체적인 차이가 불필요하게 커진 tack으로 구분 지을 수 있다. 일반적으로 특정한 라

다. 본 연구에서는 Grad-CAM을 적용하여 라벨값과 벨값으로 유도하는 것이 상대적으로 더 어렵기 때문
연관성이 높은 픽셀을 식별하여 해당 식별에만 노이 에 targetted attack에서 더 큰 왜곡 값을 갖는다.
즈를 주입함으로써 FGSM의 단점을 극복한다. 성능 적대적 예제는 다양한 방법으로 생성할 수 있다.
비교를 위해 Animal Image Dataset(DOG, CAT, 대표적인 방법은 Deepfool[14], Carlini Wagner(CW)
and PANDA)[11]과 CIFAR10[12] 데이터셋을 이용 [15], FGSM[8]이 있다. FGSM은 Goodfellow et. al
하여 적대적 샘플을 생성하고 공격 성공률과 왜곡평 (2014)[8]이 제안한 방법으로 신경망의 기울기(grad-
균을 FGSM모델과 비교한다. 또한, 제안 모델의 공 ient)를 이용한다. Fig. 1은 FGSM으로 생성된 적대
격 성공률을 높이기 위해 반복하여 노이즈를 생성하 적 예제에 대한 예시이다. 원본 이미지는 높은 확률로
는 모듈을 제안한다. “panda”로 분류하는 반면, 노이즈가 추가된 적대적
본 논문의 구성은 다음과 같다. 2장에서는 적대적 예제는 높은 확률로 “cat”으로 분류를 한다. FGSM
샘플과 Grad-CAM을 설명한다. 3장에서는 제안 알 이 목표를 정하지 않은(untargeted) 적대적 예제를

고리즘의 구성과 방법에 대해서 다룬다. 4장에서는 생성하는 공식은 식 (1)과 같다. 목표를 정하지 않은
실험 및 평가로 데이터셋, 공격 대상 모델, 적대적 적대적 예제는 오분류 할 클래스를 정하지 않고 공격
샘플 생성, 실험결과에 대하여 언급하며, 5장에서는 대상 모델이 실제값과 다른값으로 출력을 분류하는
결론으로 구성된다.
2. 관련 연구
2.1 적대적 공격과 적대적 예제
적대적 공격은 딥러닝 모델의 인공신경망의 취약
점을 이용하여 노이즈(Perturbation)를 생성하여 의
(a) (b) (c)
도적으로 모델에 오분류를 이끌어내는 과정을 의미
Fig. 1. An example of creating an adversarial example.
한다. 적대적 예제는 딥러닝 모델의 오판단을 유도하 (a) Original image, (b) Noise, and (c) An adver-
는 입력값을 의미한다. 적대적 공격은 크게 공격 대 sarial example.
880 멀티미디어학회 논문지 제25권 제6호(2022. 6)
것만을 목표로 한다. 원본 이미지( )에 각 픽셀당 작

은 perturbation(  )을 추가하여 이미지를 조작( ′ )하
는데 이때, perturbation(  )은 픽셀의 기울기의 부호
(∇   )로 더하거나 뺄지가 결정된다. ∇ 
는 원본 이미지(  )의 픽셀에 대한 공격 대상 모델
손실 함수의 기울기이며,  는 원본 입력 레이블.  는
모델의 파라미터이다. 이를 이용하여 정답 레이블(  ) (a) (b)
로부터 예측값이 멀어지는 방향으로 노이즈를 추가 Fig. 2. An example of Grad-CAM. (a) An original image
and (b) An image added Grad-CAM.
한 적대적 예제를 생성한다. 반면, 식 (2)는 목표를
정한(targeted) 적대적 예제 생성 식이다. 공격 대상
라고 할수 있다. Grad-CAM의 장점은 컨볼루션 층
모델이 공격자가 원하는 목표(   )으로 적대적 예
에 제한이 없이 어떤 컨볼루션 층에도 적용이 가능하
제를 분류하도록 하는 방법으로 출력값이 목표
다는 점이다. Fig. 2는 Grad-CAM이 적용된 예시이
(  )로 수렴하도록 적대적 예제를 생성한다. FGSM
다. 좌측 사진(a)은 원본 이미지이고, 우측 사진(b)은
은 기본적으로 원본 이미지를 한번만 조작하는
원본이미지에 Grad-CAM이 추가된 값이다. 각 픽셀
one-step 공격 방법이다. 따라서, 생성 속도가 빠르
이 합성곱 신경망이 분류를 하는데 영향을 미친 정도
다는 장점이 있지만, 모델에 최적화 되기 어렵고 공
에 따라 다른 색상으로 표시된 것을 알 수 있다.
격성공률이 낮다는 단점이 있다[16].
Grad-CAM의 공식은 식 (3),(4)와 같다.
′     ×∇   (1)
′     ×∇     (2)

          


    (3)
  
본 연구에서는 FGSM의 장점을 극대화하고 단점   
  
  
 
(4)
을 최소화 하기 위하여 FGSM을 개선한 모델을 제시

하였다. 식 (4)에서   는 합성곱 신경망에서  번째 특징
맵의 값을 의미하고,   는 출력 레이어에서 
2.2 Grad-CAM 하기 전의 목표 클래스( )의 확률값을 의미한다. 따라
 
Grad-CAM은 합성곱 신경망의 시각화 기술의 하 서,  는 클래스(  )에 대한 특징맵의 기울기 
 
나로 CAM(Class Activation Map)의 단점을 보완한 의 평균값을 나타낸다. 따라서,  는 목표 클래스(  )
방법이다. CAM, Grad-CAM과 같은 시각화 기술은 에 대한 특징 맵이 가지는 중요도라고 할 수 있다.
약한 지도학습(Weakly supervised learning)으로 입 식 (3)에서는  에

특징맵을 곱해 특징맵의 각 픽셀
력 데이터에 대해 제공되는 데이터(클래스 또는 라
들이 목표 클래스( )에 미치는 중요도를 도출하고 이
벨)보다 더 정확한 예측(모델이 분류를 하는 근거를
를  함수를 적용하여 Grad-CAM을 구한다.
찾는 등)이 필요로 할 때 사용되는 방법으로 입력
본 논문에서는 Grad-CAM을 이용하여 입력 이미
이미지의 픽셀이 출력 클래스에 미치는 영향을 분석
지의 각 픽셀이 목표 클래스(  )에 대한 중요도를 도
하기 위하여 사용한다. 기존의 CAM은 GAP(Global
출하고 이를 적대적 예제를 생성하는데 가중치로 적
Average Pooling) 레이어를 이용하기 때문에 GAP
용하여 더 효과적인 공격이 가능한 적대적 샘플을
레이어가 합성곱 모델에 반드시 포함이 되어야만
생성한다.
CAM을 도출할 수 있었다. 따라서, GAP을 사용하지
않은 딥러닝 모델에 적용하는 것이 제한된다.
3. 제안한 방법
반면, Grad-CAM은 CAM의 단점을 극복하고 GAP
레이어가 없는 모델에도 적용하기 위하여 기울기 본 논문에서는 적대적 예제 생성 알고리즘 중 하

(Gradient)를 사용한다. 여기서 기울기는 출력(클래 나인 FGSM에 합성곱 신경망의 시각화 기술중 하나
스 또는 라벨)에 대해 입력 데이터가 주는 영향력이 인 Grad-CAM을 적용하여 픽셀별로 교란값 적용 가
중치를 다르게 하여 효과적인 공격 예제를 생성하는 을 실시하고 공격 실패시 노이즈를 추가하여 반복적
알고리즘을 제안한다. FGSM은 동일한 perturba- 으로 예제를 생성하는 알고리즘을 통해 FGSM의 공
tion(  )에  함수를 통해 얻어진 기울기(-1 또는 1) 격 성공률을 높인다. 제안 방법의 구성은 아래 Fig.
을 곱하여 입력 데이터 전체 픽셀에 적용한다. 따라 3과 같다. 이때, FGSM과 Grad-CAM이 적용된 제안

서 각 픽셀이 영향을 받는 정도는   또는  으로 정 모델과의 반복 횟수의 차이를 비교한다.
해진다. 하지만, Grad-CAM을 적용하면, 각 픽셀이
클래스(  )를 분류하는데 미치는 중요도는 서로 다르 4. 실험 및 평가
다. 따라서 같은 값의 perturbation(  )을 모든 픽셀에
4.1 데이터셋
적용하는 것은 비효과적이라 할 수 있다. 이에 Grad-
CAM에서 도출된 중요도를 FGSM에 적용하여 픽셀 데이터셋은 CIFAR10[12]과 Kaggle에서 제공하는

별로 서로 다른 노이즈가 효과적으로 적용하는 알고 Animal Image Dataset(DOG, CAT and PANDA)
리즘을 제안한다. 식 (5)는 FGSM에 Grad-CAM이 [11]을 사용하였다. CIFAR10은 일반적으로 컴퓨터
적용된 목표를 정하지 않은(untargeted) 적대적 예제 비전 알고리즘의 훈련과 평가를 위해 사용되는 이미
생성 알고리즘의 식이다.       는 클래스(  )에 지 모음으로 서로 다른 10개의 클래스를 가진 [32×
대한 입력 이미지의 Grad-CAM값으로

    값 32]의 크기의 이미지가 클래스 별로 6,000개씩 총
에 따라 perturbation(  ) 값은 픽셀별로 서로 다르게 60,000개의 데이터로 구성된다. Animal Image Da-
적용된다. taset은 고양이, 강아지, 판다의 이미지가 각 각 1,000
개씩 총 3,000개의 데이터로 구성되어 있다. 본 실험

′     ×∇   ×         (5)
에서는 각 데이터에서 90%는 훈련 및 검증에 사용하

′     × ∇     ×         (6)
였으며, 10%는 평가를 위해 분리하였다.
식 (6)은 FGSM에 Grad-CAM이 적용된 목표를
설정한(targeted) 적대적 예제 생성 알고리즘 수식이 4.2 공격 대상 모델
다. 정답(  )으로 분류되지 않으면서 원하는 목표 공격 대상이 되는 모델은 딥러닝 기반 모델로 구
(   )으로 분류되게 하기 위해서      을 이 성되며, 특히 Grad-CAM을 도출하기 위해서 합성곱
용하여 정답( )를 도출하는데 중요한 픽셀들에 더 강 신경망을 가진 모델로 구성하였다. 공격 대상이 되는
한 노이즈를 가하여 목표(   )으로 분류되는 확률 모델은 전이학습(Transfer Learning)을 통해 이미지
을 높인다. 넷(ImageNet)을 이용하여 기 학습된 ResNet50과
또한, 본 논문에서는 FGSM의 단점을 보완한 모 MobileNet에 파인튜닝(fine-tuning)을 실시하여 데

델을 제시한다. FGSM은 1회성(one-step)으로 적대 이터를 분류하는 모델을 구성하였다. 공격 대상 모델
적 예제를 생성하는데 그친다. 따라서, 공격의 성공 의 세부구조는 아래 Fig. 4와 같다. Base-model인
률이 JSMA(Jacobian-based Saliency map Attack) ResNet50(또는 MobileNet)에 GAP레이어를 추가하

[17]와 같이 적대적 예제를 반복적으로 생성하여 성 여 특징 맵이 가지는 특징을 [1×1]로 압축시킨다. 이
공률을 높이는 공격에 비하여 공격 성공률이 떨어진 후, Dense 레이어를 통해 입력 데이터를 분류하도록
다. 이를 극복하기 위해 생성한 적대적 예제로 공격 구성한다. ResNet50을 base-model로 하는 대상 모
델은 CIFAR10을 분류하고, MobileNet을 base-
Fig. 3. Iterative adversarial example generation algo-

rithm. Fig. 4. Structure of the attack target model.
목표로 하고, 목표 적대적 예제의 경우 정답 클래스

값에서 +1 된 클래스를 목표로 하였다. 즉, Animal
Image에서 고양이(class 0)가 입력되면 강아지(class

1)로 출력하는 것을 목표로 한다.
(a) (b) (c)
적대적 예제의 생성은 테스트 데이터 중 공격 대
Fig. 5. Grad-Cam added a noise map. (a) Noise created
by FGSM, (b) Grad-CAM, and (c) Noise+Grad- 상 모델이 정확하게 분류한 데이터 중 CIFAR 10은
CAM. 각 클래스 별 100개씩 1000개를, Animal Image는 각

클래스별 90개씩 270개를 선별하여 생성하였다. 예
model로 하는 모델은 Animal Image Dataset을 분류 제 생성시 perturbation(  )은 0.001, 0.005, 0.01로 설
한다. 각 모델의 세부 파라미터는 학습률은 0.001, 옵 정하여 육안으로 식별이 어려운 범위내에서 예제가
티마이저(optimizer)는 ‘Adam’, batch size는 128, 생성되도록 하였다. 생성된 노이즈 값의 분포는 Fig.
epochs는 100으로 설정하였으며, 학습데이터의 20% 6과 같다. Fig. 6의 (a)는 FGSM의 노이즈 값의 분포
를 검증데이터로 사용하여 validation loss가 25 ep- 를 나타낸 것으로 FGSM의 노이즈는  또는   의
ochs동안 줄어들지 않으면 조기 종료(early stop- 값만을 갖는다. 반면, Fig. 6(b)와 같이 제안한 모델이
ping)하도록 설정하였다. 학습 결과, CIFAR10은 생성한 노이즈는 다양한 분포를 갖는 것을 알 수 있
82.8%, Animal Image는 99.3%의 정확도를 갖는다. 다. Fig. 5의 (a)와 (b)를 살펴보면 육안으로 차이를
알 수 있다. (a)의 경우, 노이즈가 동일하기 때문에
4.3 적대적 예제 생성 시각적으로도 픽셀별 차이가 크지 않은 것을 알수
제안한 모델에서 Grad-CAM을 생성하기 위해 공 있다. 반면 (b)의 경우 노이즈가 픽셀별로 다르기 때
격 대상 모델의 합성곱 레이어 중 하나를 선택하고, 문에 시각적으로도 차이가 발생한다.
Grad-CAM을 생성하였다. Fig. 5는 적대적 예제를
생성하기 위해 입력 데이터에 따른 노이즈(a) 4.4 실험결과
(  ×∇   또는  × ∇     ) 생성한 적대적 예제의 공격 성공률, 왜곡 평균은
와 Grad-CAM(b), 그리고 노이즈와 Grad-CAM을 다음 Table 1과 같다. 여기서 왜곡 평균은 한 픽셀의
합성한 노이즈 맵(c)이다. 합성된 노이즈 맵을 원본 값이 0～255 값을 가질 때, 원본 이미지와 적대적 예
이미지에 주입하여 공격을 실시한다. 제의 한 픽셀에서의 차이를 의미한다. 동일한 per-
본 실험은 공격 방법에 따라 비목표(untargeted) turbation에서 제안 모델의 공격 성공률이 기존 FGSM
와 목표(targeted) 예제로 나뉜다. 비목표 적대적 예 알고리즘 모델의 성공률 보다 높다. 제안 모델의 경
제의 경우, 정답 클래스값과 다른값을 출력하는 것을 우 기존 모델의 노이즈에 Grad-CAM에서 도출된 가
(a) (b)
Fig. 6. Value distribution of noise. (a) Value distribution of noise generated by FGSM and (b) Value distribution
of noise with Grad-Cam added.
Table 1. The performance for proposed algorithm (Targeted and Untargeted).
CIFAR10 (ResNet50) Animal Data Set (MobileNet)
Targeted Untargeted Targeted Untargeted

Method
perturbation(  ) perturbation(  ) perturbation(  ) perturbation(  )
0.001 0.005 0.01 0.001 0.005 0.01 0.001 0.005 0.01 0.001 0.005 0.01
Attack FGSM 2.2 15.1 25.3 14.1 62.1 84.0 8.7 59.0 73.0 15.7 73.7 84.7
success
rate(%) Proposed 3.8 20.2 29.6 21.3 74.9 90.8 17.0 69.3 75.3 27.3 81.0 86.3
Noise FGSM 0.08 0.42 0.85 0.08 0.42 0.84 0.25 1.27 2.54 0.25 1.27 2.54
ratio Proposed 0.12 0.59 1.18 0.12 0.59 1.17 0.37 1.86 3.72 0.37 1.86 3.72
중치 만큼의 노이즈가 추가되기 때문에 왜곡 평균이 기본 모델이 생성한 예제의 차이를 구분하기 어렵다.
동일 perturbation에서 상대적으로 높다. 따라서, 제안 모델이 생성한 적대적 예제의 성공
시각적으로 구분이 가능한지에 대한 여부는 정량 률이 높을 뿐만 아니라 두 모델이 생성한 적대적 예
적인 평가가 제한되어 정성적인 비교를 위해 생성된 제를 사람이 구분하기에는 어렵기 때문에 왜곡평균
적대적 예제를 Fig. 7에 나타낸다. epsilon이 0.02보 증가가 갖는 단점보다 성공률이 높아진다는 점에서
다 작은 경우에는 육안으로 노이즈를 식별하는 것 유의미하다 할 수 있다.
조차 어려워 비교를 위해 epsilon을 0.02로 설정하고 FGSM을 반복적으로 적용하여 공격의 성공률을
적대적 예제를 생성하였다. 그럼에도 불구하고 왜곡 높인 공격의 결과는 Table 2와 같다. CIFAR10의 경
평균(Noise ratio)은 제안 모델이 생성한 예제가 더 우 테스트 데이터 중 공격 대상 모델이 정확하게 분
큼에도 육안으로는 제안 모델이 생성한 예제와 FGSM 류한 데이터 중 클래스별 30개씩 총 300개의 데이터
Fig. 7. Adversarial examples generated by the proposed model and FGSM.

Table 2. The performance for proposed algorithm (Iterative attack).
CIFAR10 (ResNet50) Animal Data Set (MobileNet)
Targeted Targeted
Method
perturbation(  ) perturbation(  )
0.001 0.005 0.01 0.001 0.005 0.01
Attack success FGSM 100 100 100 100 100 100

rate(%) Proposed 100 100 100 100 100 100
Noise FGSM 1.29 1.99 3.17 0.51 1.33 2.55

ratio Proposed 1.34 2.47 4.29 0.58 1.93 3.82
FGSM 2,540 861 673 857 407 354

Iterations
Proposed 1,934 745 631 664 369 349
를 선별하여 적대적 예제를 생성하였다. 300의 예제 않다는 것으로써 확인 할 수 있다.

가 모두 성공하는데 걸린 반복횟수(Iterations)는 모 따라서 제안 방법은 Grad-CAM을 적용하여 FGSM
든 노이즈(perturbation)에서 제안한 모델이 더 적었 보다 공격 성공률이 높은 예제를 생성할 수 있으며,

다. 또한, Animal Image Dataset의 경우 테스트 데이 상대적으로 신속하게 예제 생성이 가능하다. 왜곡 평
터 300개 중 공격 대상 모델이 정확하게 분류한 298 균이 증가하지만, 시각적으로 두드러진 차이가 발생
개의 데이터를 대상으로 적대적 예제를 생성했으며, 하지 않기 때문에 사람의 인식률 측면에서도 큰 차이
마찬가지로 모든 노이즈에서 더 적은 반복횟수만으 가 없으면서 성공률이 높은 예제를 생성할 수 있다.
로 100% 공격 성공률을 가졌다. 뿐만 아니라, 본 모델의 경우 픽셀에 적용되는 노이
즈 값이 다르기 때문에 다양한 예제를 생성하여 딥러
5. 결 론 닝 모델의 강건성을 높이는 데에도 활용 할 수 있을
것이다.
본 논문에서는 적대적 예제를 생성하는 대표적인
방법중 하나인 FGSM에 신경망 모델의 시각화 기술
REFERENCE
중 하나인 Grad-CAM을 적용하여 공격 성공률을 높
이는 방법에 대하여 제안하였다. 제안한 방법은 노이 [ 1 ] I.J. Goodfellow, Y. Bengio, and A. Courville,
즈 맵을 생성하는 과정에서 Grad-CAM을 적용하여 D eep learning , MIT press, 2016.

노이즈의 가중치를 픽셀의 중요도에 따라 서로 다르 [ 2 ] J. Lee, S. Lee, D. Kim, S. Hong, and S. Yang,
게 부여하였다. 이를 통해, 동일한 perturbation에서 “Trends on Object Detection Techniques Based
모든 경우에서 Grad-CAM을 통해 가중치를 적용한 on Deep Learning,” J ournal of Electronics and
모델이 더 높은 공격 성공률을 보였다. 뿐만 아니라, Telecommunications Trends, Vol. 33, No. 4,

FGSM을 반복 적용하여 공격 성공률을 높일 경우, pp. 23-32, 2018.
Grad-CAM을 적용할시 반복 횟수가 줄어드는 것을 [ 3 ] W. Liu, Z. Wang, X. Liu, N. Zeng, Y. Liu, and
알 수 있다. F.E. Alssadi, “A Survey of Deep Neural Net-
왜곡 평균이 증가하는 문제에 대해서는 왜곡 평균 work Architectures and Their Applications,”
이 증가하였지만, Grad-CAM을 적용하여 생성한 적 N eurocomputing, Vol. 234, pp. 11-26, 2017.
대적 예제와 그렇지 않은 예제의 시각적인 구분이 [ 4 ] P.N. Druzhkov and V.D. Kustikova, “A Survey
어려운 것을 확인할 수 있었다. 따라서, 적대적 예제 of Deep Learning Methods and Software
생성을 위해 중요한 요소인 사람 눈에 구별되지 않아 Tools for Image Classification and Object
야 하는(unnoticeable) 요소 또한 제안한 모델이 생 Detection,” P attern Recognition and I mage
성한 예제와 FGSM이 생성한 예제가 크게 다르지 Analysis, Vol. 26, No. 1, pp. 9-15, 2016.
[ 5 ] H. Kim, D. Jung, and B. Wook, “Exploiting the Security and Cryptology, Vol. 31, No. 2, pp.
Vulnerability of Deep Learning-Based Artifi- 5-12, 2021.
cial Intelligence Models in Medical Imaging: [14] M. Dezfooli, S. Mohsen, A. Fawzi, and P.
Adversarial Attacks,” J ournal of the Korean Frossard, “DeepFool: a Simple and Accurate
Society of Radiology, Vol. 80, No. 2, pp. 259- Method to Fool Deep Neural Networks,” P ro-
273, 2019 ceeding of the I EEE Conference on Compu-

[ 6 ] K. Eykholt, I. Evtimov, E. Fernandes, B. Li, ter Vision and P attern Recognition, pp. 2574-
A. Rahmati, C. Xiao, et al., “Robust Physical- 2582, 2016.
World Attacks on Deep Learning Models,” [15] N. Carlini and D. Wagner, “Towards Evaluat-
P roceedings of the IEEE Conference on Com- ing the Robustness of Neural Networks,”
puter Vision and P attern Recognition, pp. I EEE Symposium on Security and P rivacy,
1625-1634, 2018. pp. 39-57. 2017.
[ 7 ] R.R. Selvaraju, M. Cogswell, A. Das, R. [16] H. Kwon, S. Park, and Y. Kim, “Rapid Mi-
Vedantam, D. Parikh, et al., “Grad-CAM: sclassification Sample Generation Attack on
Visual Explanations from Deep Networks via Deep Neural Network,” J ournal of Convert-
Gradient-based Localization,” P roceeding of gence Security, Vol. 20, No. 2, pp. 111-122,
the I EEE I nternational Conference on Com- 2020.
puter Vision, pp. 168-626, 2017. [17] R. Wiyatno and A. Xu, “Maximal Jacobian-
[ 8 ] D. No and T. Kim, “Fingertip Detection based Saliency Map Attack,” arXiv preprint,
through Atrous Convolution and Grad-CAM,” arXiv:1808.07945, 2018.
J ournal of the Korea Computer Graphics [18] J.Y. Kim, S.H. Jung, and C.B. Sim, “A Study
Society, Vol. 25, No. 5, pp. 11-20, 2019. on Object Detection using RestructuredRetina
[ 9 ] Y. Kim and E. Kim, “Real-Time Fire Detection Net,” J ournal of Korea M ultimedia Society,
based on CNN and Grad-CAM,” J ournal of Vol. 23, No. 12 pp. 1531-1539, 2020
the Korea I nstitute of I nformation and Com- [19] H. Ahn, S. Son, S. Yu, Y. Suh, J. Son, S. Lee,
munication Engineering , Vol. 22, No. 12, pp. Y. Chung, and D. Park, “Accurate Pig Detec-
1596-1603, 2018. tion for Video Monitoring Environment,”
[10] I.J. Goodfellow, J. Shlens, and C. Szegedy, J ournal of Korea Multimedia Society, Vol. 24,
“Explaining and Harnessing Adversarial Ex- No. 7, pp. 890-902, 2021.
amples,” arXiv preprint, arXiv:1412.6572, 2014.
[11] Animal Image Dataset(DOG, CAT, and PANDA),
https://www.kaggle.com/ashishsaxena2209/ 강 세 혁
animal-image-datasetdog-cat-and-panda
2015년 2월
육군사관학교 정보과
(accessed March 14, 2022). 학 학사
[12] The CIFAR-10 Dataset, https://www.cs.tor- 2020년 5월 Arizona State
onto.edu/~kriz/cifar.html (accessed March 14, University 컴퓨터공학

석사
2022).
2021년 3월～현재 육군 3사관학
[13] H. Kwon and Y. Kim, “Adversarial Example 교 전자공학과 교수
Technology Trends for Deep Learning Models,” 관심분야 : 인공지능, 딥러닝
Review of Korea I nstitute of I nformation

GradCAM을이용한적대적예제생성기법연구

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

GradCAM을이용한적대적예제생성기법연구

Uploaded by

Copyright:

Available Formats

Journal of Korea Multimedia Society Vol. 25, No. 6, June 2022(pp.

Grad-CAM 을 이용한 적대적 예제 생성 기법 연구

Research of a Method of Generating an Adversarial

Key words: Deep Learning, Adversarial Example, Evasion Attack, Grad-CAM

1. 서 론 만아니라, Inception, Faster RCNN등의 고성능의 모

을 수행하는 머신러닝 기법 중 하나로 다양한 분야에 딥러닝 기반 분류 모델에 대한 효과적인 공격 방법이

연구[6] 등이 대표적인 예이다. 상 모델의 정보양에 따른 분류, 공격 목표에 따른 분

ple) 생성 방법 중 하나인 FGSM(Fast Gradient 과 untargetted attack이 있다. Targetted attack은

여 원본이미지와 전체적인 차이가 불필요하게 커진 tack으로 구분 지을 수 있다. 일반적으로 특정한 라

샘플과 Grad-CAM을 설명한다. 3장에서는 제안 알 이 목표를 정하지 않은(untargeted) 적대적 예제를

것만을 목표로 한다. 원본 이미지( )에 각 픽셀당 작

′     ×∇     (2)

을 최소화 하기 위하여 FGSM을 개선한 모델을 제시

레이어가 없는 모델에도 적용하기 위하여 기울기 본 논문에서는 적대적 예제 생성 알고리즘 중 하

을 곱하여 입력 데이터 전체 픽셀에 적용한다. 따라 3과 같다. 이때, FGSM과 Grad-CAM이 적용된 제안

CAM에서 도출된 중요도를 FGSM에 적용하여 픽셀 데이터셋은 CIFAR10[12]과 Kaggle에서 제공하는

적용된다. taset은 고양이, 강아지, 판다의 이미지가 각 각 1,000

개씩 총 3,000개의 데이터로 구성되어 있다. 본 실험

또한, 본 논문에서는 FGSM의 단점을 보완한 모 MobileNet에 파인튜닝(fine-tuning)을 실시하여 데

률이 JSMA(Jacobian-based Saliency map Attack) ResNet50(또는 MobileNet)에 GAP레이어를 추가하

Fig. 3. Iterative adversarial example generation algo-

목표로 하고, 목표 적대적 예제의 경우 정답 클래스

Image에서 고양이(class 0)가 입력되면 강아지(class

CAM. 각 클래스 별 100개씩 1000개를, Animal Image는 각

Table 1. The performance for proposed algorithm (Targeted and Untargeted).

CIFAR10 (ResNet50) Animal Data Set (MobileNet)

Targeted Untargeted Targeted Untargeted

Fig. 7. Adversarial examples generated by the proposed model and FGSM.

Table 2. The performance for proposed algorithm (Iterative attack).

CIFAR10 (ResNet50) Animal Data Set (MobileNet)

0.001 0.005 0.01 0.001 0.005 0.01

Attack success FGSM 100 100 100 100 100 100

Noise FGSM 1.29 1.99 3.17 0.51 1.33 2.55

FGSM 2,540 861 673 857 407 354

를 선별하여 적대적 예제를 생성하였다. 300의 예제 않다는 것으로써 확인 할 수 있다.

든 노이즈(perturbation)에서 제안한 모델이 더 적었 보다 공격 성공률이 높은 예제를 생성할 수 있으며,

즈 맵을 생성하는 과정에서 Grad-CAM을 적용하여 D eep learning , MIT press, 2016.

게 부여하였다. 이를 통해, 동일한 perturbation에서 “Trends on Object Detection Techniques Based

모든 경우에서 Grad-CAM을 통해 가중치를 적용한 on Deep Learning,” J ournal of Electronics and

모델이 더 높은 공격 성공률을 보였다. 뿐만 아니라, Telecommunications Trends, Vol. 33, No. 4,

알 수 있다. F.E. Alssadi, “A Survey of Deep Neural Net-

왜곡 평균이 증가하는 문제에 대해서는 왜곡 평균 work Architectures and Their Applications,”

야 하는(unnoticeable) 요소 또한 제안한 모델이 생 Detection,” P attern Recognition and I mage

273, 2019 ceeding of the I EEE Conference on Compu-

Vedantam, D. Parikh, et al., “Grad-CAM: sclassification Sample Generation Attack on

through Atrous Convolution and Grad-CAM,” arXiv:1808.07945, 2018.

1596-1603, 2018. tion for Video Monitoring Environment,”

amples,” arXiv preprint, arXiv:1412.6572, 2014.

[11] Animal Image Dataset(DOG, CAT, and PANDA),

onto.edu/~kriz/cifar.html (accessed March 14, University 컴퓨터공학

You might also like