You are on page 1of 3

글로벌 ICT

주간동향리포트

텍스트-투-비디오
AI 비디오생성기의발전

AI 비디오 생성기의 개발, 그 명과 암

마돈나가 콘서트 투어에서 1980년대 히트곡인 ‘La Isla Bonita’를 부를 때마다 그녀의 뒤쪽 대형 아레나
스크린에서는 소용돌이 치는 석양빛 구름의 움직이는 이미지가 재생됨. 이 미묘한 모습을 구현하기 위해
마돈나는 아직은 생소한 인공지능 분야인 텍스트-투-비디오 도구를 도입했음. 일부 AI 동영상 애호가들은
AI 챗봇과 스틸 이미지 생성기의 발자취를 따라 언젠가는 이 새로운 기술이 엔터테인먼트의 판도를 뒤바꿀
것이라고 말함. 마돈나 팀은 지난 3월 최초의 공개 텍스트-투-비디오 모델을 출시하며 이 기술을 개척한
뉴욕의 스타트업 런웨이(Runway)와 다른 제품을 시도하였고, 런웨이는 6월에 더 발전된 ‘2세대’ 버전을
출시함. 이를 통해 런웨이가 아직 장편 다큐멘터리를 만들 수는 없지만, 스토리를 전달하는 데 도움이 되는
보조 장면과 장면을 배경 영상으로 채우는 데는 도움이 될 수 있음. 텍스트-투-비디오 시장을 조사한
클리블랜드 주립대학교의 연구원 아디티 싱(Aditi Singh)은 단기적으로는 AI가 생성한 동영상이 마케팅 및
교육 콘텐츠에 활용되어 원본 영상을 제작하거나 스톡 동영상을 구하는 것보다는 저렴한 대안이 될
것이라고 말함

하지만 텍스트-비디오 기술은 아직 갈 길이 멀고 윤리적 함정이 많이 존재함. 효과적인 안전장치가 없다면


AI 동영상 생성기는 실제로 일어나지 않은 일을 그럴듯한 ‘딥페이크’ 동영상으로 만들어 민주주의를
위협하거나, 이미 AI 이미지 생성기의 경우처럼 얼굴을 알아볼 수 있는 실제 사람처럼 보이는 가짜 포르노
장면이 인터넷에 범람할 수 있음. 또한 저작권 분쟁이 발생하기 쉬우며, 언젠가는 동영상 제작 기계가
인간의 일자리와 예술성을 대체할 수 있다는 우려도 있음
Open AI, 즉석 동영상 제작 도구 Sora 공개

ChatGPT 개발사 Open AI는 생성형 AI를 사용하여 최대 60초 길이의 동영상을 즉시 생성하는 텍스트-
비디오 생성기인 소라(Sora)를 공개함. 소라는 기존 정지 이미지에서 동영상을 생성할 수 있으며, 복잡하고
상세한 장면도 묘사할 수 있지만, Open AI는 일부 공간 및 인과관계 요소를 포함하여 여전히 몇 가지 약점이
있다고 밝힘. 하지만 업계 분석가들은 지금까지 공개된 소라의 동영상 품질과 길이가 매우 인상적이며, 이
도구의 도입으로 Open AI와 텍스트-비디오 생성의 미래 모두에 중요한 도약이 이루어졌다고 말함

하지만 AI가 생성한 동영상의 윤리적, 사회적 영향에 대한 불안감도 여전히 남아있음. 맥쿼리의 AI 연구
책임자인 프레드 해마이어(Fred Havemeyer)는 사실처럼 보이고 들리는 동영상을 생성하는 이 기술은
정치권 안팎에서 사기, 선전, 잘못된 정보 문제를 야기할 수 있다고 말함. 또한, Open AI는 소라가 어떻게
구축되었는지에 대해 일부 정보만을 공개하였고, 기술 보고서에는 소라를 학습시키는 데 어떤 이미지와
비디오 소스가 사용되었는지 공개하지 않았으며, 추가 논평 요청에도 Open AI는 즉각 응답하지 않았다고
설명함. 이와 관련하여 Open AI는 소라를 대중에게 공개하기 전에 중요한 안전 조치를 취하고 있다고 말함

Meta, 전체 비디오 생태계 강화를 위한 거대한 AI 모델 구축


Meta의 경영진은 거대한 AI 투자에는 모든 플랫폼에서 페이스북의 전체 동영상 추천 엔진을 구동하도록
설계된 AI 시스템 개발이 포함된다고 밝힘. 페이스북의 책임자인 톰 앨리슨(Tom Alison)은 메타의
‘2026년까지의 기술 로드맵’에 회사의 틱톡과 같은 짧은 동영상 서비스인 릴스(Reels)와, 보다 전통적인 긴
동영상까지 지원할 수 있는 AI 추천 모델을 개발하는 것이 포함된다고 발표함. Meta는 AI에 대한 야심찬
진출의 일환으로 수십억 달러를 들여 엔비디아(Nvidia) 그래픽 처리 장치, 즉 GPU에 투자해 왔음. 이 칩은 AI
연구자들이 Open AI의 ChatGPT와 기타 생성형 AI 모델을 구동하는 데 사용되는 대규모 언어 모델 유형을
학습하는 데 주로 사용됨. 앨리슨은 Meta의 기술 로드맵 1단계는 회사의 현재 추천 시스템을 기존 컴퓨터
칩에서 GPU로 전환하여 제품의 전반적인 성능을 개선하는 것이라고 말함. Meta는 여러 제품에 걸쳐 사용할
수 있는 거대한 추천 모델의 가능성을 확인했고, 작년까지 새로운 모델 아키텍처를 구축했으며, 이를
릴스에서 테스트 해왔음. 이 새로운 모델 아키텍처를 통해 릴스 시청 시간이 페이스북 앱에서 8-10%
증가했으며, 이는 이 모델이 이전 세대보다 훨씬 더 효율적으로 데이터를 학습하고 있음을 증명하는
것이라고 앨리슨은 말함

Meta는 현재 3단계 시스템 재구축 단계에 있으며, 여기에는 기술을 검증하고 여러 제품에 적용하는 작업이
포함됨. 릴스만 지원하는 것이 아니라 이 단일 모델로 전체 동영상 생태계를 지원하는 프로젝트를 진행
중이며, 이 기술이 성공하면 사용자가 릴스에서 관심 있는 콘텐츠를 보고 다시 피드로 돌아가면 비슷한
콘텐츠를 더 많이 보여줄 수 있을 것으로 기대됨
Haiper, 완전 지각 능력을 갖춘 AGI 구축 계획

구글 딥마인드의 전직 연구원 이슈 미아오(Yishu Miao)와 왕 지유(Wang Ziyu)가 설립한 런던 소재


하이퍼(Haiper)는 사용자가 텍스트 프롬프트에서 고품질 동영상을 생성하거나 기존 이미지에
애니메이션을 적용할 수 있는 플랫폼을 제공하며, 이 플랫폼은 런웨이(Runway) 및 피카 랩스(Pika Labs)와
같은 기존 AI 동영상 도구와 경쟁하고 있음. 이 새로운 AI 비디오 스타트업인 하이퍼는 옥토퍼스
벤처스로부터 1,380만 달러의 시드 펀딩을 받아 주목받고 있음. 하이퍼는 이 투자금을 통해 완전한 인식
능력을 갖춘 인공 일반 지능(AGI)을 구축하는 것을 궁극적인 목표로 인프라와 제품을 발전시킬 계획임.
이번 투자로 하이퍼의 총 자본금은 1,920만 달러로 늘어남

향후 몇 달 동안 하이퍼는 사용자 피드백을 반복하여 AI 비디오 출력의 품질을 향상시키는 일련의 대규모
학습 모델을 출시하여 시중에 출시된 경쟁 제품 간의 격차를 해소할 계획임. 하이퍼는 이 작업을 확장하면서
세계에 대한 모델의 이해를 높이고, 궁극적으로 빛, 움직임, 질감, 사물 간의 상호작용 등 아주 작은 시각적
요소까지 재현하여 실제와 같은 콘텐츠를 제작할 수 있는 AGI를 개발할 것으로 기대됨. 하이퍼는 이러한
차세대 지각 기능을 통해 자사의 기술이 콘텐츠 제작을 넘어 로봇 공학, 교통 등 다른 영역에도 영향을 미칠
것으로 예상되며, 비디오 AI에 대한 새로운 접근 방식으로 AI 분야에서 주목받는 회사로 부상함

참고문헌

• AP(apnews.com),Madonna is among the early adoptersof AI’s next wave, 2024년3월 5일

• AP(apnews.com),Open AI revealsSora,a tool to make instant videosfrom written prompts,2024년2월 16일

• AP(apnews.com),Sora is ChatGPTmaker OpenAI’s new text-to-videogenerator.Here’swhat we know…, 2024년 2월 17일

• CNBC(cnbc.com), Meta is building a giant AI model to powerits ‘entirevideoecosystem,’exec says, 2024년3월 6일

• VentureBeat(venturebeat.com),AI videostartupHaiper emergesfrom stealth, plans to build AGI with full …, 2024년 3월 5일

You might also like