You are on page 1of 26

통계적기계학습

CHAPTER 1

이미지 캡셔닝
성명 : 최승호
이메일 : jcn99250@naver.com
전화번호 : 010-3168-9024
학습 목표

◦ 이미지 캡션에 대해서 알아봅시다.


이미지 캡션

◦ 이미지 캡션 생성 작업을 LSTM 적용하여 구현하는 원리


에 대해서 설명하고자 함
◦ 이미지 캡션 생성 작업은 주어진 이미지를 묘사하는 텍스
트를 생성하는 작업, 이미지 프로세싱과 텍스트 생성작업이
결합되어 있는 작업임
◦ 이미지 캡션 생성에서는 먼저 훈련된 CNN을 이용하여
주어진 이미지의 속성을 올바르게 반영하는 벡터를 생성 후
LSTM을 훈련함으로서 해당 이미지를 묘사하는 텍스트 생
성하는 과정으로 이루어져 있음
◦ 서로 다른 매체의 것을 다루는 멀티모달 프로세싱임
◦ 이미지 캡션 생성은 그 자체로 많은 기능성을 내포함
이미지 캡션

◦ 대표적인 예시로는 이미지 검색:


◦ 현재 이미지 검색은 순수하게 그에 동봉되어 있는 텍스트 또는 파
일명을 기준으로 수행함
◦ 이미지 캡션 생성이 가능해지면 이미지 자체를 분석하여 검색하는
작업을 수행할 수 있게 함
◦ 이는 한 층 더 정확한 이미지 검색이 가능함
이미지 캡션에 필요한 데이터 셋

◦ 데이터 세트
◦ MS-COCO 데이터 셋
◦ 실제 훈련에 필요한 데이터 셋으로 개별적인 이미지와 이에 맞
추어진 문장들이 존재함
◦ 해당 데이터 셋으로부터 직접적으로 모델을 학습시키는데 사
용되어 CNN 이미지 Feature vector를 추출하고 LSTM이 캡
션 생성됨
이미지 캡션 생성 과정

◦ 이미지 캡션 생성 요약
◦ CNN을 통해서 이미지의 인코딩을 추출함
◦ CNN은 고정된 크기의 이미지 입력을 받아서 알맞은 이미지 분류
에 배정될 수 있도록 이미지 속성을 내포한 벡터 표현을 출력함
◦ 이미지 캡션 생성은 CNN에서 출력한 벡터 표현을 통해 LSTM 을
학습해 외국어를 번역시키는 작업을 함
◦ 먼저 MS-COCO 데이터로 LSTM 번역기를 훈련 시킨뒤, 해당 모
델이 훈련 때 접하지 못한 이미지 셋으로 캡션을 생성하여 성능을
평가함
이미지 캡션 생성 과정

◦ 이미지 캡션 생성 전체 과정
다양한 이미지 캡션 방법

◦ 조건부 무작위 필드를 사용해 이미지와 텍스트 연결하기


◦ 이미지에서 객체와 속성을 찾은 후 이를 사용해 CRF 로 텍스트를
생성하는 방법을 제안
◦ 기존 CRF는 전통적으로 텍스트 생성과 같은 구조화된 예측에 사용
◦ 텍스트 생성의 흐름
다양한 이미지 캡션 방법

◦ CNN 기능에서 RNN을 사용해 캡션 생성


◦ CNN과 RNN이 연속적으로 겹쳐진 이미지 캡션을 작성하기 위해
End-to-End 훈련 가능한 딥러닝 방법을 제안
◦ 자연어로 완성된 문장을 생성을 가능
다양한 이미지 캡션 방법

◦ 이미지와 이미지에서 캡션 가져오기


◦ 이미지에서 텍스트를, 텍스트에서 이미지를 검색하는 방법
◦ 제안 방법은 양방향 매핑이 가능함
◦ 캡션을 검색하려면 이미지와 텍스트의 인코더를 잠재적 공간을 이
용해 연결해서 사용
◦ 이미지의 첫번째 모델은 훈련에 사용되는 전체 모델, 이미지에 표
시된 것처럼 시각적 기능을 사용해 문장을 생성하거나 그 반대로도
사용가능
다양한 이미지 캡션 방법

◦ 밀집 캡션
◦ 이미지의 객체와 액션에 대해 별도의 캡션이 생성, 그러므로 이름
과 밀집 캡션을 얻을 수 있음
◦ 이 아키텍처는 근본적으로 Faster R-CNN과 LSTM의 조합
◦ 객체 검출 결과를 생성하는 영역이 생성되고, 영역의 시각적 특징
이 캡션을 생성하는 데 사용
다양한 이미지 캡션 방법

◦ 캡션에 RNN 사용하기


◦ 이미지 캡션 작업을 위한 Long-term recurrent convolutional
architecture를 제안
◦ CNN과 LSTM은 시간에 따른 그림 공유 가중치로 표시됨
◦ 위 방법을 임의로 긴 순차적 순서에 맞게 확장 가능
다양한 이미지 캡션 방법

◦ 다중 모달 측정 항목 공간 사용하기
◦ 다중 모달 임베딩 공간을 사용해 캡션을 생성하는 방법을 제안함
다양한 이미지 캡션 방법

◦ 캡션 작성 시 관심 네트워크 사용
◦ Attention 매커니즘을 사용한 이미지 캡션 방법을 제안함
◦ Attention 매커니즘은 이미지의 특정 영역에 다른 부분보다 더 많
은 가중치를 부여함
◦ 관심은 시각화를 가능하게 해서 다음 단어를 생성할 대 모델이 어
느 곳에 초점을 맞추고 있는지 보여줌
다양한 이미지 캡션 방법

◦ 언제 살펴봐야 할지 파악하기
◦ 관심을 기울이는 방법을 제안함
◦ 이로써 더 나은 결과를 얻기 위해 관심을 가지는 캡처 영역을 언제
더 잘 볼 수 있음
◦ 동작 과정
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기


◦ 기존 이미지 캡셔닝 모델은 블랙박스 모델이므로 이미지 캡셔닝 모
델에 대해서 이해하는 것이 중요함
◦ 따라서 이미지 캡셔닝에서 성능이 향상 될 수 있는 6가지 모듈에
대해서 살펴보고 6가지 모듈에 대해서 비교 실험을 살펴보고자 함
◦ 이미지 캡션 모델의 성능 이해하기 위한 6가지 방법
◦ Sequential module
◦ Feature extraction module
◦ Word embedding module
◦ Initial seed module
◦ Search module
◦ Attention module
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparison of sequential modules (a) LSTM and (b) GRU,
(i) Vanilla-RNN and (ii) Bi-directional RNN
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparative anlaysis according to the feature extraction, (i)
Vgg16 and (ii) ResNet 50
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparative anlaysis according to embedding module. (a)
embedding, (b) Glove, (i) Vanilla-RNN, and (ii) Bi-directional
RNN
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparision of attention modules, (a) non-attention and
(b) attention, (i) Vanilla-RNN, and (ii) Bi-directional RNN
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparision of components in seed module by the value of
MSE and loss error
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Effect of loss on optimization using Vaniila RNN with
ResNet50, (i) Adam, (ii) Nadam, (a) Cross entropy, (b)
Hinge, (c) Focal loss
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Effect analysis of feature extraction with optimization, (i)
Adam, (ii) Nadam, ResNet 50 with Vanilla RNN
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ Comparision of search methods for correlation analsysis of
generated captions. (a) greedy search, (b) beam search, (i)
Vanilla-RNN, (ii) Vanila-RNN with attention, (iii) Bi-
directional RNN, and (iv) Bi-directional RNN with attention
이미지 캡셔닝 모델의 성능 향상하기

◦ 이미지 캡셔닝 모델을 이해하기 (계속):


◦ 결론 :
◦ We analyzed the effect of the modules of image captioning. Analysis of the effects on the
sequential model showed that the Bi-directional RNN was slightly better than the Vanilla-
RNN. This is because the interactive reflection of subtitle information is well trained in
context. Impact analysis of the attention shows that the attention Vanilla-RNN is beneficial
for performance because it focuses on the part of the input word relative to the word to
be predicted. It is a search module for evaluating the correlation between the generated
results, the beam search module performs better than the greedy search module. In
analyzing the impact on embedding, Keras embedding showed better performance than
pre-trained Glove. The comparative analysis of the feature extraction showed that the
ResNet50 is higher than the Vgg16 in terms of image captioning and features. In the case
of the seed methods of the sequential model, it can be seen that the seed value of the
Random uniform efficiently reflects the sequential information.
질문 및 정리

You might also like