You are on page 1of 3

2021년 한국컴퓨터종합학술대회 논문집

캠코딩 및 Black-Border 변형 동영상에서 YOLO CNN


모델을 이용한 원본 영상 영역 검출 방법
나형윤, 정민수, 낭종호
skguddbs@sogang.ac.kr, msjeong1@sogang.ac.kr, jhnang@sogang.ac.kr

An Original Image Boundary Detection Method for Camcording


and Black-Border Transformed Video using YOLO CNN Model

HyungYoun Na, Minsoo Jeong, Jongho Nang

요 약
최근 유튜브를 필두로 많은 콘텐츠 플랫폼에서 미디어에 대한 수요 및 공급이 계속해서 증가하고 있
다. 이에 따라 비디오 콘텐츠의 불법 복제와 같은 이슈가 발생하고 있다. 이러한 문제를 해결하기 위해
다양한 변형에 강인한 동영상 부분 복사 검출에 관한 많은 연구가 진행되어왔다. 하지만 black border와
캠코딩과 같은 특정 변형에서는 검출에 대한 어려움이 많다. 본 연구에서는 이러한 복사 검출을 쉽게 하
기 위해 black border와 캠코딩 변형이 적용된 동영상에서 YOLO v4 모델을 이용하여 원본 동영상 화면
영역을 검출하여 해당 영역만큼 crop하여 변형을 제거하는 방법을 제안한다. 훈련시킨 모델은 변형이 없
는 영상에 대해서는 오검출율 0.22를 기록하였으며 black border와 캠코딩 변형 영상에서는 각각 mAP50
0.73, 0.71을 기록하였다.

1. 서론 에서 동시에 진행한다. 이러한 특징 때문에 YOLO[1]는


Youtube와 Instagram과 같은 콘텐츠 플랫폼이 이전의 다른 객체 탐색 기법들보다 훨씬 빠른 속도로
지속해서 증가함에 따라 멀티미디어에 대한 수요와 객체를 검출할 수 있다. 또한, 최신 YOLO[1] 모델인
공급이 늘어나고 있다. 이에 따라 불법으로 복제한 YOLO v4[4]는 YOLO v3[5]에 비해 성능을 획기적으로
비디오 콘텐츠들 또한 다양한 플랫폼에서 편집되어 향상했다. 본 연구에서는 캠코딩 혹은 black border 변
유통되고 있다. 이러한 문제를 해결하기 위해 다양한 형을 제거 후 추가로 복사 검출을 진행하게 될 것이므
변형에 강인한 복사 검출 방법이 연구되었지만, 실제 로 속도를 중요시하여 YOLO v4[4]를 선택하였다.
비디오에 적용하기에는 아직 성능이 부족하다. 따라서
본 연구에서는 이러한 복사 검출을 쉽게 하기 위해 3. 실험 구성 및 설계
black border와 캠코딩 변형이 적용된 동영상에서 3.1 데이터 셋
YOLO v4 모델을 이용하여 원본 동영상 화면 영역을
검출한 후, 그 영역을 crop하여 변형을 제거하는 [표 1] 동영상 화면 검출 모델 학습을 위한 프레임 수
방법을 제안한다. 변형 Train Val Test
캠코딩 2784장 929장 201장
2. 관련 연구 Black border 3392장 849장 745장
객체 탐지 기법에는 여러 종류가 있는데 그중 변형 없음 2631장 657장 411장
YOLO[1]는 딥 러닝 객체 탐색 기법의 하나로서 대표적
인 1-stage detector이다. Fast R-CNN[2]과 Faster R- 데이터셋으로는 비디오 복사 검출을 위한 벤치마크
CNN[3] 같은 방법들도 존재하지만, 이 방법들은 2- 데이터셋 VCDB[2]와 FIVR[3]중 일부를 자체적으로
stage detector로서 이미지를 여러 영역으로 나눈 후 변형하여 사용하였다. Black border 변형이 적용된
CNN 모델에 통과시키기 때문에 한 이미지에 대해 수백, 데이터셋은 VCDB[2] 데이터셋에서 black border가
수천 장의 이미지가 모델을 거쳐 간다. 이 방법은 정확 적용되지 않은 동영상을 찾아 black border를 적용하여
하지만 많은 시간을 요구하는 문제점이 존재한다. 이에 simulated된 black border 변형 영상을 만들어
반해 YOLO[1]는 전체 이미지에 대해 한 번만 CNN 모 구성하였다. 캠코딩이 적용된 데이터셋은 VCDB[2]
델을 거치게 된다. 또한 객체의 바운딩 박스 위치를 특 데이터셋에서 캠코딩 변형이 적용된 영상을 확인하여
정하는 작업과 이미지를 분류하는 작업을 같은 신경망 총 14개의 캠코딩 영상을 뽑아 이를 자체적으로

1028
2021년 한국컴퓨터종합학술대회 논문집

태깅하여 사용하였다. 하지만 VCDB의 캠코딩 변형이


적용된 영상 수가 부족하다고 판단하여 VCDB[6] 영상 4. 실험 및 결과분석
8개와 FIVR[7] 영상 9개를 임의로 선택하여 직접 3.2에서 설명한 대로 학습된 모델을 이용하여 실험한
촬영하여 캠코딩 변형 데이터셋을 구성하였다. 이 결과는 <그림 3>과 <그림 4>와 같다.
데이터셋에서 1초당 1개의 프레임을 추출하여 [표 1]과
같이 데이터셋을 구성하였다.

3.2 원본 영상 영역 검출 방법
본 연구에서는 캠코딩과 black border 변형이 적용된
영상에서 변형을 제거하는 방법을 <그림 1>에서 알 수
있듯이 변형 동영상에서 프레임을 추출한 후, 객체
검출을 통해 동영상 화면을 검출한 후, 검출된 바운딩
박스만큼 이미지를 crop 하여 변형을 제거한다. <그림
1>에서 YOLO v4 모델이 동영상 화면을 검출하는
과정은 <그림 2>와 같다.

<그림 3> Confidence Threshold 변화에 따른 오검출율

<그림 1> 동영상 변형 제거 과정

<그림 4> Confidence Threshold 변화에 따른


변형 종류별 mAP50

<그림3>의 실험 결과는 변형이 적용되지 않은 원본


동영상 테스트 데이터셋을 이용하여 다양한
Confidence Threshold에서 오검출율을 측정한 결과이다.
오검출율은 원본 동영상 테스트 데이터셋중 검출이
일어난 프레임의 비율이다. 따라서 Confidence
Threshold 값이 높아질수록 점점 감소하는 것을 확인할
수 있다. <그림 4>는 각 변형이 적용된 테스트
데이터셋에서 mAP50 값을 측정한 결과를 Confidence
Threshold 값에 따라 나타낸 결과이다. 전체적으로
Confidence Threshold 값이 증가함에 따라 mAP 값이
<그림 2> YOLO v4 모델이 동영상 화면을 감소하는 것을 알 수 있다. Black Border 변형에 대한
mAP 값은 전체적으로 조금씩 감소하지만 캠코딩
검출하는 과정
변형은 Threshold 값이 0.6에서 0.7로 증가할 때 mAP
값의 감소폭이 크므로 잘못된 검출을 최대한 줄이고
이중 핵심적인 부분은 동영상 화면을 검출하는
성능을 높게 하기 위해서는 Confidence Threshold 값을
모델을 학습시키는 부분이다. 데이터셋의 크기가 충분히
0.6으로 설정하고 검출하는 것이 좋다.
크지 않아 MS COCO 데이터셋으로 사전 학습된 모델을
하지만 캠코딩, Black Border 변형의 mAP 값이
전이 학습시켜 사용하기로 하였다.
0.6~0.7로 전체적으로 낮은 것을 알 수 있다. 그

1029
2021년 한국컴퓨터종합학술대회 논문집

6. 감사의글
“본 논문은 2021년도 정부(과학기술정보통신부)의 재원
으로 정보통신기획평가원 (IITP)의 지원을 받아 수행된
연구임 (2019-0-01730, 동영상의 Fingerprint 생성을
통해 디지털 성범죄 피해 영상 조기 확산 방지를 위한
고속 검색 기술 개발 )”

7. 참고문헌
[1] Redmon, Joseph, et al, "You Only Look Once:
Unified, Real-time Object Detection," Proceedings of
the IEEE Conference on Computer Vision and Pattern
Recognition, pp. 779-778, 2016.
<그림 5> (a), (c) 정확하게 검출된 동영상 화면 예시
(b), (d) 검출되지 않은 동영상 화면 예시 [2] Girshick, Ross, "Fast R - C N
N ," Proceedings of the IEEE I nternational C
이유로는 Black Border의 경우 <그림 5>의 (c)와 같이 onference on Computer Vision, pp. 1440-1448, 2015.
전체적으로 어두운 영상인 경우 Black Border의
경계선의 구분이 모호하여 구분이 불가능한 경우가
많았다. 캠코딩 변환의 경우 <그림 5>의 (d)와 같이 [3] Ren, Shaoqing, et al, "Faster R-CNN: Towards R
카메라 각도, 거리에 따라 화면이 잘리거나 기우는
eal- t ime O bject D etection with Region Proposal
변화가 큰 경우에는 정확하게 검출이 되지 않았다.
Networks," Advances in Neural Information Processing
Systems, pp. 91-99, 2015.

[4] Bochkovskiy, Alexey, Chien-Yao Wang, and


Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and
Accuracy of Object Detection," arXiv preprint
arXiv:2004.10934, 2020.
<그림 6> (a) 영상에서 검출된 동영상 화면 (b) (a)에서
검출한 화면을 crop한 이미지
[5] Joseph Redmon and Ali Farhadi. “Yolov3: An
Incremental Improvement”. arXiv preprint
검출이 된 경우 학습된 모델을 이용하여 검출된 동영
arXiv:1804.02767, 2018.
상 화면과 그 화면을 crop한 결과는 <그림 6>에서 확
인 할 수 있다.
[6] Y. G. Jiang, Y. Jiang and J. Wang, "VCDB: a
Large-Scale Database for Partial Copy Detection in
5. 결론 및 향후 연구과제
Videos," in Proceedings of European conference on
본 논문은 객체 검출 기법의 하나인 YOLO v4[4]를 이
computer vision, pp. 357-371, 2014.
용하여 black border 및 캠코딩 변형을 제거하는 시스템
을 제안했다. 이를 통해 캠코딩 및 black border 변형이
[7] G. Kordopatis-Zilos, S. Papadopoulos, I. Patras
적용된 동영상에서 변형을 제거할 수 있었다. 하지만 어
and I. Kompatsiaris, "FIVR: Fine-Grained Incident
두운 프레임의 Black Border 변형과 카메라 각도에 따
Video Retrieval," in IEEE Transactions on Multimedia,
른 변화가 심한 캠코딩 영상의 경우 검출이 되지 않는
vol. 21, no. 10, pp. 2638-2652, 2019.
문제가 있었다. 향후 연구에서는 좀더 정확한 동영상 화
면을 검출할 수 있도록 연구를 진행하고자 한다.

1030

You might also like