You are on page 1of 8

다양한 딥러닝 알고리즘과 활용

Deep learning algorithms and applications

저자 김지원, 표현아, 하정우, 이찬규, 김정희


(Authors) Jiwon Kim, Hyuna Pyo, Jungwoo Ha, Chankyu Lee, Jeonghee Kim

출처 정보과학회지 33(8), 2015.8, 25-31 (7 pages)


(Source) Communications of the Korean Institute of Information Scientists and Engineers 33(8), 2015.8, 25-31 (7
pages)

한국정보과학회
발행처
KOREA INFORMATION SCIENCE SOCIETY
(Publisher)

URL http://www.dbpia.co.kr/Article/NODE06404388

APA Style 김지원, 표현아, 하정우, 이찬규, 김정희 (2015). 다양한 딥러닝 알고리즘과 활용. 정보과학회지, 33(8), 25-31.

이용정보 한국방송통신대학교
203.232.176.***
(Accessed) 2019/01/10 17:44 (KST)

저작권 안내
DBpia에서 제공되는 모든 저작물의 저작권은 원저작자에게 있으며, 누리미디어는 각 저작물의 내용을 보증하거나 책임을 지지 않습니다. 그리고 DBpia에서 제공되는 저작물은 DBpia와 구독
계약을 체결한 기관소속 이용자 혹은 해당 저작물의 개별 구매자가 비영리적으로만 이용할 수 있습니다. 그러므로 이에 위반하여 DBpia에서 제공되는 저작물을 복제, 전송 등의 방법으로 무
단 이용하는 경우 관련 법령에 따라 민, 형사상의 책임을 질 수 있습니다.

Copyright Information
Copyright of all literary works provided by DBpia belongs to the copyright holder(s)and Nurimedia does not guarantee contents of the literary work or assume responsibility for the
same. In addition, the literary works provided by DBpia may only be used by the users affiliated to the institutions which executed a subscription agreement with DBpia or the
individual purchasers of the literary work(s)for non-commercial purposes. Therefore, any person who illegally uses the literary works provided by DBpia by means of reproduction or
transmission shall assume civil and criminal responsibility according to applicable laws and regulations.
특집원고

다양한 딥러닝 알고리즘과 활용

(주)네이버 네이버랩스 김지원・표현아・하정우・이찬규・김정희

1. 서 론 어플리케이션에 활용되어 왔다. 이후 딥러닝 기술이 본


격 궤도에 오르면서, 2012년 ImageNet Challenge[3]에서
딥러닝(Deep Learning)은 완전히 새로운 이론은 아
딥 CNN이 기존의 컴퓨터 비전 기술을 크게 앞서는 성능
니다. 딥러닝은 신경망 기반 기계학습의 부활이라고
을 냄으로써, 고해상도의 자연 이미지에서도 일반적인
할 수 있다. 딥러닝을 적용한 음성인식의 오류율이
사물을 인식할 수 있는 수준에 이르게 되었다[4].
20% 이상 개선되기 시작한 것을 계기로 다양한 분야
현재 구글, 네이버를 비롯한 유수의 국내외 IT 기업
로 확산되기 시작했으며, 2012년 ImageNet Challenge
에서 사진 자동 분류, 내용 기반 이미지 검색 등의 서
에서 최고의 분류 성능을 보인 이후 이미지 분류 분
비스에 널리 활용되고 있으며, 동영상 분류, 이미지-
야에서도 빠르게 적용되고 있는 추세이다. 최근에는 텍스트 멀티모달 학습 등으로 영역을 꾸준히 확장해
자연어 처리 및 멀티모달 데이터 학습등 그 분야가 나가고 있다.
확산되고 있다. 이러한 딥러닝 확산의 바탕에는 빅데
이터라고 불리는 대규모 학습 데이터와 이를 처리할 2.1 CNN의 구조 및 학습
수 있는 하드웨어가 그 바탕에 있다. 본 고에서는 다 CNN은 그림 1과 같이 크게 convolution-pooling layer
양한 분야에서 문제 해결의 새로운 패러다임을 제시 와 fully connected layer의 두 부분으로 구성되어 있
하고 있는 딥러닝 알고리즘의 종류와 활용 분야들 중 다. 전자는 입력된 이미지로부터 계층적 구조의
몇 가지를 살펴본다. feature를 추출하는 역할을, 후자는 추출된 feature를
입력받아 타겟 클래스로 분류하는 역할을 담당한다.
CNN layer는 아래와 같은 두 가지 특징을 통해 이
2. Convolutional Neural Networks 와
이미지 분류 미지 데이터의 특성을 반영하는 동시에 모델의 복잡
도를 크게 단순화시킨다.
1) Local connectivity: 가장 일반적인 형태인 fully
CNN(Convolutional Neural Network)은 생물의 시신경 connected layer와 달리, 해당 convolution 필터의 크기
이 동작 하는 원리에서 영감을 얻어 이미지 데이터의 인 NxN window 내의 인접한 뉴런들에만 연결이 되
처리에 적합한 구조로 만들어진 신경망으로, 1990년대 어있다. 이는 인접한 픽셀들끼리는 상관관계가 높지
후반부터 필기 숫자 인식[1], 얼굴 인식[2] 등의 제한적인 만 멀리 떨어진 픽셀들은 그렇지 않은 이미지의 특성

그림 1 CNN의 일반적인 구조[1]

2015. 8 정보과학회지 25

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


(a) (b) (c)
그림 2 자동차 이미지로 학습시킨 CNN의 (a) 하위 layer, (b) 중위 layer, (c) 상위 layer에서 학습한 feature [5]

(a) (b) (c)


그림 3 CNN을 이용한 네이버의 서비스. (a) N드라이브 사진 검색 (b) 지식iN 사진 질문 기반 디렉토리 추천 (c) 이미지 기반
라인 신규 스티커 추천

(locality)을 반영한 것이다. 식iN에 사진 질문이 올라오면 CNN으로 사진 내용을


2) Shared weights: convolution 필터들은 적용되는 분석해 그에 맞는 지식iN 디렉토리를 자동 추천해 주
위치가 달라도 같은 weight값을 공유한다. 이는 픽셀 고 있다(그림 3(b)). 또한 메신저 서비스인 라인에서는
값의 통계적 특성이 이미지 상의 좌표와 무관하다는 스티커를 사용자의 구매 이력에 기반해 추천해주는데,
이미지의 특성(stationarity)을 반영한 것이다. 구매 이력이 없는 신규 스티커의 경우 CNN으로 학습
된 feature를 사용해 이미 구매한 스티커들과 시각적으
Pooling layer는 NxN 윈도 내의 입력값들을 그 최 로 유사한 스타일의 스티커를 추천한다. (그림 3(c))
대값 또는 평균값으로 매핑함으로써 이미지의 크기를
점차적으로 줄인다. 그 결과 상위 layer로 올라갈수록 3. Recursive Neural Networks과
같은 크기의 convolution 필터가 상대적으로 넓은 영 감성분석(Sentiment Analysis)
역을 처리하게 되어, 상위 layer에서는 하위 layer의
저차원 feature를 조합한 고차원 feature를 학습하는
RNN(Recursive Neural Networks)은 parse-tree와 같
효과를 가져온다. (그림 2)
이 구조화된 입력을 처리할 수 있는 아키텍쳐의 한
2.2 CNN을 이용한 어플리케이션 종류이다. 다른 표현으로 tree-structured neural
앞서 언급한 대로 국내외 대다수 IT 기업들은 이미 networks이라고도 불리우는데, 신경망의 출력이 다시
지에서 사물을 인식하는 데 뛰어난 성능을 보이고 있 신경망의 입력으로 들어가서 처리하기 때문이다. 따라
는 CNN을 사진 자동 태깅, 내용 기반 이미지 검색 등 서 고정된 길이의 입력이 아니라 다양한 길이의 구문
다양한 이미지 관련 서비스에 적극 활용하고 있다. 이나 문장을 각 워드 벡터를 합성 벡터(compositional
네이버의 경우, 클라우드 저장소인 N드라이브에 업 vectors)로 표현하여 재귀적으로 처리할 수 있다. (그
로드된 사용자의 사진들을 CNN으로 분석해 음식, 패 림 4)는 이러한 방법을 설명한다. N개의 단어로 이루
션, 동물, 자연, 텍스트 등의 테마별로 검색하는 서비 어진 구문이 주어졌을 때, 바이너리 트리로 구문을 파
스를 제공하고 있으며(그림 3(a)), Q&A 서비스인 지 싱하고, 각 리프 노드에는 워드 벡터로 표현되는 단어

26 특집원고 다양한 딥러닝 알고리즘과 활용

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


를 대응한다. 리프 노드를 이용하여 bottom-up 방식으 으로 감성분석을 하였을 때, 82.4%의 인식률을 보였
로 상위 노드(parent vectors)의 벡터를 구하고, 이렇게 다. (긍정/부정의 바이너리 예측) 한국어의 경우 역시
구한 상위 노드 벡터값은 다시 다음 네트웍의 입력이 영화리뷰를 이용하여 감성분석을 실험하였다. 다만
된다.[7] sentiment treebank는 모든 리프 노드, 중간 노드에도
Recursive Neural Networks은 특별한 타입의 트리 감성 레이블이 표기되어 있어서 모든 노드에서
구조를 가지는 Recurrent Neural Networks의 일반화된 softmax error를 계산하여 RNN을 훈련시켰지만, 한국
모델이라고 볼 수 있다.[8] Recursive Neural Networks 어의 경우에는 DB구축의 시간,비용의 문제로 인하여
의 장점은 문장을 구조를 파악하여 입력으로 사용하 문장단위로 루트에서만 softmax error를 계산하였다.
기 때문에 조금 더 정확한 의미를 나타낼 수 있다. 이 140만 문장을 이용하여 학습했을 때 최고 88.7%의 인
러한 모델들은 언어 구문분석(Parsing), 감성분석 식률을 얻었다.
(Sentiment Analysis), paraphrase detection 등에 사용되
어 높은 성능을 보인다. 4. 딥러닝 기반의 멀티모달 학습
감성분석은 텍스트에 나타난 사람들의 태도, 의견, (multimodal learning)
성향과 같은 주관적인 데이터를 분석하는 자연어 처
리 분야로서 특히 최근에는 시장현황이나 주식등에서 4.1 멀티모달 학습
소비자나 대중들의 반응을 측정하는 도구로서 많이 최근 스마트폰의 보급과 무선네트워킹 및 사회관계
사용하고 있다. 스탠포드 대학에서 구축한 sentiment 망 서비스(social network service)의 발전으로 인해 멀
treebank DB는 10,605문장의 영화 리뷰를 구문분석, 티모달 데이터가 급격한 속도로 생산되고 있다. 멀티
감성 레이블을 하였고, 이 DB를 이용하여 RNN 방식 모달 데이터(multimodal data)는 두 가지 이상의 모달
리티로 의미를 표현되는 데이터로 정의되며 태그를
포함한 사진은 이미지-텍스트, 동영상은 이미지-오디
오-텍스트, 가요는 오디오-텍스트로 표현되는 멀티모
달 데이터의 예이다. 멀티모달 학습은 데이터로부터
같은 의미를 표현하는 서로 다른 모달리티 간의 연관
관계를 표현 및 학습하는 기법으로 정의될 수 있으며
멀티모달 데이터의 조회, 검색, 추천을 위한 핵심기술
로 사용된다. 가령 “작년 여름 해수욕장의 사진” 이라
고 입력을 하면 스마트폰에 저장된 수많은 사진들 중
에서 질의어와 연관된 사진을 자동으로 검색 가능
(Text2Image)하며 반대로 스마트폰으로 사진을 촬영하
면 이를 설명하는 문장을 자동으로 태깅(Image2Text)
그림 4 Recursive Neural Networks 방법[7] 하여 저장할 수도 있다. 멀티모달 학습은 2000년 대

그림 5 한국어 영화 리뷰를 이용한 감성분석 결과

2015. 8 정보과학회지 27

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


초반에 시작되었으며 초기에는 주로 토픽모델(topic 와 같이 이미지 인자를 위해 Convolutional Neural
model)을[9] 이용한 접근법이 다수를 차지하였다. 그 Network (CNN)이 문장생성을 위한 언어모델로서
러나 기존의 방법들은 이미지에 단어 태그를 부여하 Recurrent Neural Network (RNN)이 사용되었다. 즉 이
거나 단어 질의에 대해 이미지를 조회하는 수준에 그 미지가 질의로 주어지면 주어진 이미지는 학습된
쳤다. CNN에 의해 다차원의 실수 인자 벡터로 변환되고 이
벡터값이 RNN의 입력으로 주어지면 이미지를 설명
4.2 딥러닝을 이용한 멀티모달 학습
하는 텍스트 정보가 학습된 RNN에 의해 문장형태로
학습을 통해 데이터로부터 인자를 자동으로 생성
생성된다. 특히 생성된 문장은 정확도를 측정했을 때
가능하다는 점에서 딥러닝은 멀티모달 학습에 적합한
BLEU 점수 기준 사람이 직접 작성한 문장과 유사한
모델이라고 할 수 있다. 이는 서로 다른 모달리티가
수준으로 문장이 생성됨을 보였다(그림 7(a)). 최근에
표현하는 공통 의미공간을 딥러닝 모델을 이용해 학
는 Image2Text에 attention 개념이 포함되어 주어진 이
습함으로써 가능해진다. 멀티모달 학습을 위한 딥러
미지로부터 문장을 구성하는 단어들이 순차적으로 생
닝 초기모델로서 multimodal deep Boltzmann machine
성될 때 생성되는 단어와 직접 관련된 이미지 부분에
(mDBM)이 제안되었다[10]. 이 모델은 텍스트와 이미
attention 이 주어지도록 학습하는 모델이 제안되었다
지 데이터 각각을 학습하는 restricted Boltzmann
[4]. 또한 이미지를 넘어서 비디오 데이터를 분류하고
machine (RBM) 위에 모달리티 통합 RBM 층이 존재
비디오의 내용을 설명하는 문장을 생성하는 연구도
하며, 확률적 추론을 통해 이미지가 입력으로 주어지
다수 발표되었다 [13-15]. 또한 국내 연구진에 의해서
면 텍스트 단어로 표현되고 단어가 주어졌을 때 이미
만화비디오의 내용 및 각 등장인물들의 성격 및 특징
지 인자가 생성된다(그림 6(a)). 2014년 11월 구글에서
을 학습하는 딥러닝 모델인 deep concept hierarchy
는 “Show and Tell: a neural image caption enerator
(DCH) 모델이 제안 되었으며 그림 3과 같이 이 기술
(NIC)”이라는 획기적인 딥러닝 기반의 멀티모달 학습
을 통해 만화 이미지가 주어지면 자막을 자동으로 생
관련 연구결과를 공개하였다[11]. 이는 이미지 분류나
성하고 문장이 주어지면 관련된 장면을 자동으로 생
태깅에 국한되던 기존의 Image2Text 기술을 뛰어넘어
성하는 연구가 소개된 바 있다 [16]. 궁극적으로는
주어진 이미지의 내용을 설명하는 문장을 자동으로
100개의 에피소드를 학습한 모델이 101번째의 에피소
생성하는 기술을 포함한다. 본 기술에서는 그림 6(b)
드 스토리를 자동으로 생성하도록 하는 스토리텔링

(a) Multimodal DBMs [10] (b) Neural image caption generator [11]

(c) Attention 포함 NIC [12]


그림 6. Deep learning 기반 Image-Text 멀티모달 학습 모델 구조

28 특집원고 다양한 딥러닝 알고리즘과 활용

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


모델도 구현될 수 있다. 서 스토리를 포함한 상위수준의 추상화된 문장을 생
이러한 괄목할만한 기술발전에도 불구하고 멀티모 성하는 기술로 발전되어야 한다. 또한 현재의 멀티모
달 학습은 아직 초기단계에 머무르고 있다. 먼저 생성 달 학습은 이미지, 텍스트, 사운드에 집중되어 있는
된 문장에 대하여 BLEU를 대신할 정성적 측면을 고 상황이지만 더욱 다양한 종류의 센서 모달리티 데이
려한 측정기준을 수립하는 것이 필요하며 이미지-텍 터로 확장될 때 인간 인지모델링 및 인간수준 인공지
스트 변환에 있어서 단편적인 사실 설명문장을 넘어 능 구현을 위한 핵심 기술로 자리잡게 될 것이다.

(a) NIC에 의해 생성된 문장

(b) Attention에 해당하는 문장단어와 이미지의 부분


그림 7. Deep learning 기반 Image2Text로 생성된 문장 결과

(a) DCH에 의해 생성된 자막 (b) DCH에 학습된 뽀로로관련 개념


그림 8. Deep concept hierarchy를 이용한 뽀로로 비디오 학습 결과

2015. 8 정보과학회지 29

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


5. 향후 연구 및 결론 Networks for Compositionality in Language”,
Advances in Neural Information Processing Systems
27, pp. 2096-2104, 2014.
딥러닝을 이용하여 좋은 성능을 얻기 위한 관건 중
[9] D. M. Blei and M. Jordan, “Modeling Annotated
하나는 대용량 학습 데이터를 얼마나 빠른 시간 안에 Data,” Proceedings of the 26th annual ACM SIGIR
학습시킬 수 있느냐에 달려 있다. 딥러닝을 이용하여 Conference on Research and Development in Information
학습할 때에는 다양한 hyper-parameter 들을 설정해 주 Retrieval (SIGIR 2003), pp. 127-134, 2003.
어야 하며, 구조에 있어서도 다양한 변이가 존재한다. [10] N. Srivastava and R. Salakhutdinov, “Multimodal
각 문제에서 최적의 답을 얻기 위해서는 많은 실험을 Learning with Deep Boltzmann Machines,” Advances
통해 이러한 hyper-parameter 들을 결정할 수 밖에 없 in Neural Information Processing Systems 2012 (NIPS
는데, 대용량 데이터를 학습하기 위해 많은 시간이 소 2012), pp. 2222-2230, 2012.
요된다면, 효율이 떨어질 수 밖에 없고 기업체에서 경 [11] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show
쟁력 있는 서비스를 제공하기 어렵다. 따라서 얼마나 and Tell: A Neural image caption generator,” Proceedings
scalable 한 딥러닝 학습 플랫폼을 갖추느냐가 딥러닝 of the IEEE Conference on Computer Vision and Pattern
의 경쟁력을 좌우할 수 있다. 네이버에서도 이러한 문 Recognition (CVPR 2015), pp. 3156-3164, 2015.
제를 해결하기 위해 지속적인 노력을 기울이고 있다. [12] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R.
Salakhutdinov, R. Zemel, and Y. Bengio, “Show,
참고문헌 Attend and Tell: Neural Image Caption Generation
with Visual Attention,” Proceedings of The 32th
[ 1 ] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, International Conference on Machine Learning, 2015.
“Gradient-based learning applied to document recognition”, [13] N. Srivastava, E. Mansimov, and R. Salakhutdinov,
Proceedings of the IEEE, vol. 86, issue 11, pp. 2278-2324, “Unsupervised Learning of Video Representation using
November 1998. LSTMs,” Proceedings of The 32th International
[ 2 ] S. Lawrence, C. L. Giles, A. C. Tsoi, A. D. Back, “Face Conference on Machine Learning, 2015.
recognition: a convolutional neural-network approach”, [14] L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H.
IEEE Transactions on Neural Networks, vol. 8, issue 1, Larochelle, and A. Courville, “Video description
pp. 98-113, January 1997. generation incorporating spatio-temporal features and a
[ 3 ] http://www.image-net.org/challenges/LSVRC/2012/ soft-attention mechanism,” arXiv preprint arXiv:1502.
[ 4 ] A. Krizhevsky, I. Sutskever, G. E. Hinton, “ImageNet 08029, 2015.
Classification with Deep Convolutional Neural [15] S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney,
Networks”, Advances in Neural Information Processing T. Darrel, and K. Saenko, “Sequence to Sequence –
Systems 25, pp. 1097-1105, 2012. Video to Text,” arXiv preprint arXiv:1505.00487, 2015.
[ 5 ] H. Lee, R. Grosse, R. Ranganath, A. Y. Ng, [16] J.-W. Ha, K.-M. Kim, and B.-T. Zhang, “Automated
“Convolutional Deep Belief Networks for Scalable Construction of Visual-Linguistic Knowledge via
Unsupervised Learning of Hierarchical Representations”, Concept Learning from Cartoon Videos,” Proceedings
Proceedings of the 26th Annual International Conference of the 29th AAAI Conference on Artificial Intelligence
on Machine Learning, pp. 609-616, 2009. (AAAI 2015), pp. 522-528, 2015.
[ 6 ] http://ufldl.stanford.edu/tutorial/supervised/
ConvolutionalNeuralNetwork/
[ 7 ] Socher, R.; Perelygin, A.; Wu, J. Y.; Chuang, J.;
Manning, C. D.; Ng, A. Y.; and Potts, C. 2013b. 김지원
Recursive Deep Models for Semantic Compositionality 1999 서울대학교 전산학과 학사 졸업
Over a Sentiment Treebank. In Conference on 2002 University of Washington 전산학과 석사 졸업
2006 University of Washington 전산학과 박사 수료
Empirical Methods in Natural Language Processing,
2010.12 ~ 현재 (주)네이버 네이버랩스, 책임연구원
pp. 1631-1642, 2013
[ 8 ] Irsoy, Ozan and Cardie, Claire “Deep Recursive Neural

30 특집원고 다양한 딥러닝 알고리즘과 활용

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)


표현아 이찬규
2001 포항공과대학교 컴퓨터공학과 학사 졸업 2005 연세대학교 컴퓨터공학과 학사 졸업
2003 한국과학기술원 전산학과 석사 졸업 2006~현재 (주)네이버 네이버랩스, 책임연구원
2003~2008 LG전자
2010~2012 LG전자
2012~현재 (주)네이버 네이버랩스, 책임연구원

하정우 김정희
2004 서울대학교 컴퓨터공학부 학사 졸업 1996 서울대학교 전기공학부 학사
2004~2006 삼성 SDS 1999 서울대학교 전기공학부 석사
2015 서울대학교 전기컴퓨터공학부 박사 졸업 1999~2012 LG전자
2015~현재 (주)네이버 네이버랩스, 책임연구원 2012~현재 (주)네이버 네이버랩스, 수석연구원
Email: Jeonghee.kim@navercorp.com

2015. 8 정보과학회지 31

한국방송통신대학교 | IP: 203.232.176.*** | Accessed 2019/01/10 17:44(KST)

You might also like