You are on page 1of 6

이미지 캡션 생성기

Caption data
Starseq, white, black, shirt, man, woman
이미지 캡션 생성기의 원리 is, screaming, laughing, endseq

텍스트 전처리

Vocabulary
1, 102, 45, 78, 8905, 56, 890, 45, 847, 2

CNN Feature map RNN


(encoder) (Context Vector) (decoder)

startseq white shirt man


이미지

is screaming endseq
CNN(합성곱신경망)
• 데이터 특징을 추출해 특징들의 패턴을 파악하는 신경망이다.
• 데이터에 있는 각 성분의 인접 성분들을 조사해 그 특징을 파악
하고, 파악한 특징의 관계를 합성곱 연산을 이용해 특성 맵
(feature map)으로 정리한다.

• https://wikidocs.net/64066
LSTM
• LSTM은 RNN 신경망(순환 신경망)의 일종
• RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출
력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력
으로 보내는 특징을 갖는다.
• CNN을 통해 인코딩된 Feature값을 입력값으로 받아 start of
sequence부터 end of sequence까지 단어를 생성(문장을 생성)
하며, 단어를 생성하는 과정에서 입력된 feature 값이 다시 신경
망에 입력되기 때문에 순환 신경망이라 불린다.

• https://wikidocs.net/22886
LSTM
• RNN은 신경망이 장기적인 관계를 훈련해야 하는 응용 분야에
서 효율성이 떨어진다.
• LSTM 신경망은 부가적인 게이트를 사용하여 은닉 셀의 어느 정
보를 출력과 다음 은닉 상태로 보낼지 제어한다.
• 부가적인 게이트를 통해 신경망은 데이터에 있는 장기적인 관
계를 더욱 효과적으로 훈련할 수 있다.

• https://kr.mathworks.com/discovery/lstm.html
RNN을 이용한 decoding

You might also like