You are on page 1of 3

2021년 한국소프트웨어종합학술대회 논문집

동영상의 객체 기반 이종정보를 활용한 관광 이벤트 분류*

김성민o, 최하람, 양지훈


서강대학교 컴퓨터공학과

eddyzzang@sogang.ac.kr, chlgkfka25@sogang.ac.kr, yangjh@sogang.ac.kr

Event classification using object-based multi-modal data from Youtube tourism videos

Sungmin Kimo, Haram Choi, Jihoon Yang


Department of Computer Science and Engineering, Sogang University

요 약

최근 여행 및 관광에 대한 수요가 증가함에 따라 관련 동영상 데이터도 급증하고 있다. 관광 트렌드 파악을 위해


동영상에서 의미 있는 데이터를 추출하고 빅데이터 분석에 사용할 수 있도록 데이터를 구조화하는 것이 중요하다. 본
논문에서는 동영상 데이터를 직접 사용하지 않고 동영상으로부터 추출된 이미지, 텍스트, 오디오 이종 (multi-modal) 정보
객체 기반(object-based) 데이터를 활용하여 총 9가지의 카테고리(지역, 인종, 연령대, 성별, 장소, 음식, 행동, 분위기,
이벤트)로 분류하는 모델을 구축한다. 분류 모델은 부스팅 알고리즘인 XGBoost, LightGBM, CatBoost를 사용하였다. 개별
모델들과 개별 모델들을 결합한 앙상블 모델의 성능을 비교한 결과, 앙상블 모델의 성능이 더 우수함을 확인하였다. 또한
가공되지 않은(raw) 동영상 데이터를 이용한 방법보다 객체 기반 데이터를 활용한 방법의 성능이 뛰어났다.

1. 서 론 가공되지(raw) 않은 동영상 데이터를 이용한 방법보다 우수한


여행 및 관광에 대한 수요가 늘어남에 따라 관련 동영상들이 성능을 보였다. 한편 데이터 분포에 따라 가중치를 부여하는
유튜브 및 SNS에 많이 업로드 되고 있다. 팬데믹 완화에 따라 방식의 비용 민감 학습(Cost-sensitive Learning)[5]을 통해
관광 빅데이터를 통해 특정 지역을 찾는 관광객들의 수요, 데이터의 불균형 문제를 해결하였다.
선호하는 음식, 장소 등을 분석하여 맞춤형 관광 정책을 세울 수
있을 것이다. 관광 트렌드를 파악하기 위해 관광 2. 이벤트 분류 모델
동영상으로부터 의미 있는 데이터를 추출하는 방법을 개발할 본 논문에서 사용한 이벤트 분류 모델인 LightGBM, XGBoost,
필요가 있다. 또한 추출된 데이터를 분석에 사용할 수 있도록 CatBoost에 대해 설명한다.
하는 데이터 구조화 작업도 필요하다.
본 논문에서는 이종(multi-modal) 검출기를 통해 유튜브 관광 2.1 Gradient Boosting Machines (GBM)
동영상으로부터 이미지, 오디오, 텍스트 객체 정보를 추출한다. Gradient Boosting Machine은 앙상블 방법론 중 하나로
객체 기반(object-based) 데이터를 통합하고 머신러닝 기법을 다수의 얕은(shallow) 결정 트리들이 연쇄적으로 이어진
적용하여, 각각 복수의 클래스로 구성된 9가지의 카테고리를 구조이므로, 학습을 위해 적절한 트리 개수가 요구된다. 각각의
분류하는 모델을 제안한다. 각 카테고리마다 서로 다른 9개의 트리들은 미분 가능한 손실 함수가 주어진 이전 트리에서
모델을 구성하고 각 카테고리에 대한 분류 정확도를 도출한다. 계산된 잔차(residual)를 예측한다[1]. 다수의 약한(weak) 결정
그래디언트 부스팅 알고리즘인 XGBoost[2], LightGBM[3], 트리의 예측치를 종합하기 때문에 분류 성능이 높다. 그러나
CatBoost[4]를 사용하여 분류 모델을 구성하였다. 개별 과도하게 많은 결정 트리를 사용하면 학습 데이터에
모델보다 3가지의 서로 다른 모델로 이루어진 앙상블 모델의 과적합(overfitting) 될 수 있는 문제가 있다.
성능이 우수함을 확인하였다. 또한 객체 기반 방법이

* 이 논문은 '과학기술정보통신부 정보통신방송 연구개발 사업'의 재원으로

정보통신기술진흥센터의 지원을 받아 수행된 연구 결과입니다. [과제번호 : 2020-0-00113,


과제명 : 이종 정보 활용 및 데이터 융합을 통한 데이터 증식 기술 개발]

807
2021년 한국소프트웨어종합학술대회 논문집

2.2 XGBoost 클래스의 비용 함수를 계산할 때 빈도수에 반비례하게 가중치를


XGBoost는 병렬 처리로 학습을 진행하여 기존 GBM 방법 주어 균형을 맞추는 방식이다. 입력 특징에 XGBoost, LightGBM,
대비 학습속도가 빠르다. 목적함수에 제약(penalty) 사항을 CatBoost 등 총 3가지의 모델을 적용하여 분류를 진행했다.
추가하여 정규화한(regularized) 방법으로 학습을 진행하여 그림1은 동영상에서 이종 정보 객체를 추출하고 카테고리를
과적합을 줄인다. 현실에 존재하는 다양한 분류, 회귀 분석 문제 분류하는 모델을 나타낸 것이다.
등에 대한 성능이 매우 뛰어나다[2].

2.3 LightGBM
기존 트리 알고리즘은 수평적(level-wise)으로 확장을 하는
반면, LightGBM은 수직적(leaf-wise)으로 확장하는 차이점이
있다. 결정 트리가 수직적으로 확장함으로써 연산량과 정보 그림 1 동영상 객체 검출 및 카테고리 분류 모델

손실을 줄일 수 있다. 분류성능과 연산속도 측면에서 모두 기존


GBM 방법을 앞섰다[3].
표 1 전체 카테고리에 대한 클래스 정보
카테고리 클래스 정보
2.4 CatBoost
강남, 건대, 남산, 동대문, 명동, 성수, 신도림,
CatBoost는 학습 데이터 중 일부를 이용하여 잔차를 예측하여
지역 신촌, 여의도, 영등포, 이태원, 을지로, 잠실,
학습한 후, 또 다른 일부 데이터를 이용하여 잔차를 예측하는
종로, 홍대, 그 외
과정을 반복하는 과정을 거치면서 학습한다. 이를 순서가 있는
인종 백인, 흑인, 황인, 그 외
부스팅(ordered-boosting)이라고 부른다[4].
연령대 어른, 아이, 어른 아이, 그 외
성별 남자, 여자, 남자 여자, 그 외
3. 모델 학습 및 실험 결과
가게, 거리, 고궁, 공원, 놀이동산, 대중교통,
3.1. 데이터셋 장소 동물원, 산, 숙소, 시장, 아쿠아리움, 음식점,
관광 키워드 기반 크롤링(crawling)을 통해 유튜브에서 서울 전망대, 전시회, 카페, 그 외
관광 동영상 373개를 수집하였다. 각 동영상을 의미 한식, 양식, 일식, 중식, 고기, 술, 빵, 분식,
있는(semantic) 장면(scene)으로 분할하여 1467개의 장면 음식 길거리 음식, 배달음식, 커피, 간식, 뷔페음식,
동영상을 이용하였다. 장면 동영상마다 1초당 1개의 음식 없음
프레임(frame)에서 객체정보를 추출하여, 총 120,014개의 구경하다, 먹다, 휴식하다, 쇼핑하다, 산책하다,
행동
프레임의 정보를 사용하였다. 물체, 인종, 성별, 연령대 정보는 타다, 그 외
EfficientNet, 오디오 정보는 MobileNetv2, 장소 정보는 ResNet- 분위기 맛있는, 멋있는, 예쁜, 재밌는, 편안한, 그 외
101, 음식 정보는 Yolov4, 텍스트 정보는 Text-Rank 검출기를 거리 구경, 고궁 방문, 공원 산책, 관광지 방문,
사용하여 추출하였다. 추출된 정보는 단어 형태의 객체와 해당 이벤트 휴식, 시장 구경, 맛집 방문, 카페 방문, 쇼핑,
객체의 검출 신뢰도를 측정한 신뢰 점수(confidence score)의 대중교통 이용, 등산, 길거리 음식 먹기, 그 외
쌍을 이룬다. 이를 입력 특징(feature)으로 사용하였다. 학습,
검증, 테스트 데이터셋 비율은 7:2:1이다. 9개 카테고리(지역, 3.3. 실험 결과
인종, 연령대, 성별, 장소, 음식, 행동, 분위기, 이벤트)의 각 표 2는 객체 기반의 단일 모델의 성능과 앙상블 모델의
클래스 정보는 표 1과 같다. 성능을 비교한 결과를 보여준다. 단일 모델 성능은 5-Fold 교차
검증을 통해 생성된 각 5개의 모델들의 평균치를 이용하여
3.2. 모델 학습 도출했다. 앙상블 방법은 각기 다른 알고리즘을 사용한
5-Fold 교차 검증(cross validation)을 통해 모든 데이터 셋을 Fold에서 나온 예측 클래스의 확률 값의 평균을 사용하는 Soft-
활용하여 특정 데이터 셋에 과적합되는 것을 방지하였다. 또한 voting 방식을 사용하였다.
각 Fold에 데이터가 고르게 분포될 수 있도록 Stratified Fold를 분위기 카테고리를 제외한 모든 카테고리에서 단일 모델들을
적용하였다. 관광객들이 주로 방문하는 지역, 장소 등으로 인해 조합한 앙상블 모델의 성능이 우수함을 확인할 수 있다. 다양한
발생한 데이터 불균형 문제는 비용 민감 학습(Cost-sensitive 분류기의 결합을 통해 더 일반화된 결과를 이용하여 더 우수한
Learning)[5]을 통해 해결하고자 하였다. 비용 민감 학습은 모델을 구축할 수 있었다. 최종 분류 모델을 사용하여 9개의

808
2021년 한국소프트웨어종합학술대회 논문집

카테고리의 결과에 대한 평균값을 계산했을 때 75.7%의 성능을 신경망을 이용하였다. 실험 결과 가공되지 않은 동영상
보였다. 표2에서 굵게 표시된 것은 단일 카테고리에서 더 우수한 데이터를 사용한 분류 모델보다 객체 기반의 모델이 더 우수한
성능을 보인 모델을 나타낸다. 성능을 보였다. 인간이 판별할 수 있는 객체를 추출해서 분류에
사용하는 방식이 더 좋다고 할 수 있다. 또한 단일 모델의 분류
표 2 테스트 셋에 대한 객체 기반의 앙상블과 단일 모델의 성능보다 서로 다른 모델을 결합한 앙상블 모델의 성능이
분류 성능 비교 우수했다. 하지만 데이터 셋에 불균형 문제가 있어 좋은 성능을
단일 모델 앙상블 모델 내는데 한계점이 있었다. 향후 연구에서는 추가적으로 학습
지역 45.36% 48.36% 데이터를 수집하여 데이터 불균형 문제를 완화시키고, 딥러닝
인종 93.35% 93.85% 네트워크를 적용하여 성능을 향상시킬 계획이다.
연령대 86.58% 87.47% 결론적으로 본 논문에서 제시한 관광 이벤트 분류 모델을

성별 61.23% 63.29% 통해 관광 빅데이터를 구축하고 분석하여 향후 서울에 방문하는

장소 72.18% 74.87% 관광객들의 트렌드 및 성향을 파악할 수 있길 바란다. 이를 통해

음식 78.32% 78.54% 관광객에게 맞춤 관광 정보를 추천하는 등 새로운 관광 정책을

행동 82.62% 86.24% 수립하여 한국 관광 산업이 더 성장해 나갈 수 있기를 기대한다.

분위기 78.65% 78.17%


참고문헌
이벤트 74.50% 75.68%

[1] Sagi, Omer, and Lior Rokach. "Ensemble learning: A


표 3 테스트 셋에 대한 객체 기반의 모델과 가공되지 않은 survey." Wiley Interdisciplinary Reviews: Data Mining and
동영상 기반의 모델의 분류 성능 비교 Knowledge Discovery 8.4, e1249, 2018.
객체 기반 모델 동영상 분류 모델 [2] Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable
지역 48.36% 38.34% tree boosting system." Proceedings of the 22nd acm
인종 93.85% 91.23% sigkdd international conference on knowledge discovery
연령대 87.47% 86.45% and data mining, 2016.
성별 63.29% 50.73% [3] Ke, Guolin, et al. "Lightgbm: A highly efficient gradient
장소 74.87% 73.35% boosting decision tree." Advances in neural information
음식 78.54% 74.65% processing systems 30, 3146-3154, 2017.
행동 86.24% 75.93% [4] Prokhorenkova, Liudmila, et al. "CatBoost: unbiased
분위기 78.65% 71.27% boosting with categorical features." arXiv preprint
이벤트 75.68% 66.53% arXiv:1706.09516, 2017.
[5] Khan, Salman H., et al. "Cost-sensitive learning of deep

객체 기반의 모델과 가공되지 않은(raw) 동영상 데이터를 feature representations from imbalanced data." IEEE

사용한 분류 모델의 성능은 표 3과 같다. 가공되지 않은 동영상 transactions on neural networks and learning systems

분류 모델은 3차원 합성곱 신경망 모델인 I3D(Inflated 3D 29.8: 3573-3587. 2017.

Convolution Network)[6]를 사용했으며 2차원 합성곱 필터를 [6] Carreira, Joao, and Andrew Zisserman. "Quo vadis, action

3차원으로 확장하여 만든 망으로 2차원 필터의 사전 학습된 recognition? a new model and the kinetics dataset."

가중치를 가져올 수 있다는 장점이 있다. 객체 기반의 모델의 proceedings of the IEEE Conference on Computer Vision

분류 정확도가 압도적으로 높은 것이 확연히 드러난다. and Pattern Recognition. 2017.

4. 결 론
본 논문은 동영상으로부터 추출된 이종 정보 객체 기반의
모델과 가공되지 않은 동영상 데이터를 사용한 분류 모델의
분류 성능을 비교하였다. 객체 기반의 모델은 3가지의 부스팅
알고리즘을 적용했으며 단일 모델과 앙상블 모델 간의 성능을
비교하였다. 가공되지 않은 동영상 기반 모델은 3차원 합성곱

809

You might also like