Professional Documents
Culture Documents
CHAPTER 1
이미지 캡셔닝
성명 : 최승호
이메일 : jcn99250@naver.com
전화번호 : 010-3168-9024
학습 목표
◦ 데이터 세트
◦ MS-COCO 데이터 셋
◦ 실제 훈련에 필요한 데이터 셋으로 개별적인 이미지와 이에 맞
추어진 문장들이 존재함
◦ 해당 데이터 셋으로부터 직접적으로 모델을 학습시키는데 사
용되어 CNN 이미지 Feature vector를 추출하고 LSTM이 캡
션 생성됨
이미지 캡션 생성 과정
◦ 이미지 캡션 생성 요약
◦ CNN을 통해서 이미지의 인코딩을 추출함
◦ CNN은 고정된 크기의 이미지 입력을 받아서 알맞은 이미지 분류
에 배정될 수 있도록 이미지 속성을 내포한 벡터 표현을 출력함
◦ 이미지 캡션 생성은 CNN에서 출력한 벡터 표현을 통해 LSTM 을
학습해 외국어를 번역시키는 작업을 함
◦ 먼저 MS-COCO 데이터로 LSTM 번역기를 훈련 시킨뒤, 해당 모
델이 훈련 때 접하지 못한 이미지 셋으로 캡션을 생성하여 성능을
평가함
이미지 캡션 생성 과정
◦ 이미지 캡션 생성 전체 과정
다양한 이미지 캡션 방법
◦ 밀집 캡션
◦ 이미지의 객체와 액션에 대해 별도의 캡션이 생성, 그러므로 이름
과 밀집 캡션을 얻을 수 있음
◦ 이 아키텍처는 근본적으로 Faster R-CNN과 LSTM의 조합
◦ 객체 검출 결과를 생성하는 영역이 생성되고, 영역의 시각적 특징
이 캡션을 생성하는 데 사용
다양한 이미지 캡션 방법
◦ 다중 모달 측정 항목 공간 사용하기
◦ 다중 모달 임베딩 공간을 사용해 캡션을 생성하는 방법을 제안함
다양한 이미지 캡션 방법
◦ 캡션 작성 시 관심 네트워크 사용
◦ Attention 매커니즘을 사용한 이미지 캡션 방법을 제안함
◦ Attention 매커니즘은 이미지의 특정 영역에 다른 부분보다 더 많
은 가중치를 부여함
◦ 관심은 시각화를 가능하게 해서 다음 단어를 생성할 대 모델이 어
느 곳에 초점을 맞추고 있는지 보여줌
다양한 이미지 캡션 방법
◦ 언제 살펴봐야 할지 파악하기
◦ 관심을 기울이는 방법을 제안함
◦ 이로써 더 나은 결과를 얻기 위해 관심을 가지는 캡처 영역을 언제
더 잘 볼 수 있음
◦ 동작 과정
이미지 캡셔닝 모델의 성능 향상하기