본문 바로가기

기고

[167호] 인공지능과 메타버스로 인한 크리에이터 영상제작의 변화

한양사이버대학교 교양학부 교수 이 옥 기

 

출처: pixels

 

생성형 인공지능과 메타버스 기술로 콘텐츠 제작 환경은 혁신 중

 

생성형 인공지능과 메타버스 기술은 콘텐츠 제작 환경을 혁신하고 있다. "에브리씽 에브리웨어 (Everything Everywhere)"2023년 제95회 아카데미상 시상식에서 작품·감독·각본·편집상 등 총 7관왕을 수상한 작품인데, 두 돌멩이의 대화 장면이 명장면으로 꼽혔다. 이 장면은 런웨이의 그린 스크린 기능을 활용하여 몇 분 만에 완료된 시각효과이다. 이 기술은 미국 CBS"더 레이트쇼 위드 스티븐 콜베어" (The Late Show with Stephen Colbert)"라는 토크쇼 등에서도 사용되어 제작 시간을 현저히 단축했다. 런웨이는 머신러닝을 기반으로 한 생성 AI 기술을 제공하는 회사로, 창업은 독일 뮌헨 대학교 연구진과의 협력에서 시작되었고 초기에는 이미지 생성 프로그램 스테이블 디퓨전의 초기 버전을 개발했다. 20233월에는 gen-2를 출시하여 멀티모달 기능을 추가했다. 이제 텍스트만으로도 영상을 생성할 수 있어 이미지가 없어도 다양한 콘텐츠를 만들 수 있게 된 것이다. 런웨이는 이런 기능을 활용하여 AI 영화제를 개최하고 런웨이 스튜디오를 설립하여 텍스트 프롬프트만으로 만든 10분짜리 영화 "미드나잇"을 제작 중이며 소셜 미디어를 통해 일부 장면을 공유하고 있다. 이로써 런웨이는 5,000만 달러의 투자를 유치하여 5억 달러의 기업 가치를 인정받았다.

 

가트너(Gartner)2017년에는 디지털 전환과 인공지능이 '인식' 단계에 머물렀지만, 2021년에는 프로덕션의 인공지능으로 '전환'하는 시기에 도달했다고 분석했는데, 바야흐로 AI로 만든 영화가 극장에서 곧 개봉될 "스토리텔링의 새로운 시대"를 향하고 있다.

 

메타버스 플랫폼에서도 생성형 AI를 활용한 크리에이터 영상 제작의 변화가 현실화되고 있다. 사용자는 생성 AI 도구를 활용하여 프롬프트를 입력하고, 이를 통해 메타버스를 직접 만들어 가는(Text to Metaverse) 환경이 조성되고 있다. 예를 들면, 네이버제트가 운영하는 메타버스 '제페토'는 창작자들에게 창의적인 활동을 할 수 있는 플랫폼이 되고 있다. 사용자들은 의상, 헤어, 액세서리 등의 아이템을 제작하여 판매하고 수익을 얻을 수 있다. 현재 제페토에 창작 활동을 하는 사용자는 1만 명을 넘어섰고, 제페토 아바타의 의상 중 99%는 창작자들이 만든 것이다. 매달 800만 개가 넘는 사용자 제작 아이템이 판매되고 있으며, 매달 40만 개가 넘는 새로운 아이템이 출시되고 있다. 창작자들은 최소 1개 이상의 아이템을 출시하는 경우가 8만 명을 넘었다. 그러나 창작 활동에는 시간이 많이 소요되는 어려움이 있다. 이를 해결하기 위한 강력한 도구로서 생성 AI가 도입되고 있다.

 

이와 같이 인공지능 기술과 메타버스 플랫폼은 콘텐츠 크리에이터의 역할을 새롭게 정의해 주고 있으며, 플랫폼의 구조가 개방적으로 변화하도록 했고, 창작의 효율성이 증대되고 기획력과 아이디어의 중요성이 강조되는 크리에이터 제작의 변화를 유도하였다.

 

적은 노동력으로 빠르게 창작물을 만들어내는 영상제작 워크플로우로 통합

 

영상 제작은 주로 제작, 유통, 소비의 세 가지 단계로 나뉜다. 최근에는 디지털 기반의 제작으로 인하여 인프라, 플랫폼, 그리고 콘텐츠, 지식재산권(IP) 등이 결합한 새로운 생태계의 트렌드와 변화가 나타나고 있다. 영상 제작의 워크플로우도 이러한 변화에 맞추어 조정되고 있다. 미디어 지적 재산권(IP)을 활용하여 메타버스에 새로운 스토리 세계를 구축하고 있다. , 사용자들이 다양한 결말이 나타나는 대화형 스토리를 만들 수 있도록 제작도구들을 지원하고 있다.

 

미국 End Cue'애자일 프로듀서(Agile Producer)'는 사전 제작 단계에서 각본을 분석하여 촬영에 필요한 다양한 요소들을 추출하고, 배우의 스케줄, 촬영 장소, 장비, 날씨, 예산 등을 고려하여 최적의 스케줄을 자동으로 관리한다. 최근에는 인공지능이 텍스트, 이미지, 영상 등 다양한 입력에 대해 포함하고 있는 맥락(Context)을 이해하고 영상을 생성, 요약하는 기술이 개발 중이다. 실제로 캐나다의 그린라이트 에센셜(Greenlight Essentials)은 세계 최초로 인공지능이 창작한 시놉시스를 기반으로 하는 영화 ‘Impossible things(2016)’를 제작했다. 미국의 만화작가 앤디 허드는 종영된 드라마 '프렌즈' 시나리오를 신경망을 통해 학습하여 후속편 내용이 담긴 시나리오를 생성하려고 시도했다. 또한, 감독 오스카 샤프와 인공지능 연구자 로스 굿윈은 '벤자민'이라는 인공지능 작가를 구현하여 시나리오를 창작하고, 이를 기반으로 영국에서 개최된 '48시간 내에 영화 제작' 경연에 'Sunspring'이라는 9분 내외의 단편 SF 영화를 출품했다.

 

제작 단계에서는 구글의 AI 카메라 클립스(Clips)Amazon AWS의 딥러닝 기반 프로그래밍이 가능한 비디오카메라 딥렌즈(DeepLens) 등이 활용되고 있다. Clips는 사용자의 얼굴을 인식하고 친한 사람들의 특징을 학습하여 의미 있는 순간을 촬영한다. DeepLens는 객체 인식과 행동 감지를 통해 촬영을 수행하는 인공지능 카메라이다. 또한 디즈니는 말하는 모습을 학습하여 만화 캐릭터나 다른 배우의 모습으로 표현하는 기술을 개발하였다. 무인 스포츠 중계 콘텐츠 제작 시스템인 픽셀랏(Pixellot)은 클라우드와 인공지능을 활용하여 경기 상황에 따라 적절한 부분을 편집하여 방송에 제공한다. SK텔레콤과 카카오VX도 골프 중계에 AI 기술을 활용하여 주요 장면을 자동으로 편집하고 선수의 퍼팅 라인을 예측해 보여준다. 2016년에는 IBM Watson의 감정 분석 및 MUSE EE의 뇌 분석 도구를 활용하여 단편 영화 "Eclipse"가 제작되었다. 이 작품은 가사에 담긴 감정을 분석하여 영상의 분위기를 표현하고, 뇌 분석 도구를 사용하여 해당 가수의 실제 감정을 분석하여 영상을 제작했다. 특히, 이 작품은 웨인힐스와 대형 멀티플렉스와의 협업을 통해 100% 생성 AI로 제작되었다. 촬영 대상은 스스로 결정하였고, Microsoft AI Rinna 챗봇에게 질문하여 대답을 받아와 촬영을 진행했다. 이후에는 AI 카메라 드론을 사용하여 촬영하고 감정 분석 결과에 따라 분위기에 맞게 편집까지 수행했다.

 

후반 작업 단계에서도 인공지능 성우와 자동 편집 기술이 사용되고 있다. 웰사이드 랩스(Wellsaid Labs)에서 개발한 인공지능 성우 "아바(Ava)"는 세련되고 자신감 넘치며 전문적인 목소리로 학습되어 다양한 목소리로 문장을 자연스럽게 발음하는 데 특화되어 있다. 또한, 더 만달로디언(Vandalorian)VFX(시각 효과) 스튜디오 촬영은 디즈니+의 스타워즈 시리즈로 큰 주목을 받았으며, 딥페이크 기술이나 AI 기반의 콘텐츠 생성이 창의성을 제공하고 있다.

 

이처럼, GPT, 미드저니(MidJourney) 등의 생성형 인공지능 도구들은 기획과 제작 단계에서 적은 노동력으로 빠르게 창작물을 만들어 내고 있다.

 

 

크리에이터영상제작의 빅뱅의 시대

 

젠슨 황 엔비디아 CEO'칸 라이언즈 페스티벌'에서 "생성 AI로 인해 모든 산업과 콘텐츠 유형에 걸쳐 크리에이터들이 영향을 받을 것"이라고 말했다. 실제로 가상 인플루언서, 또는 버튜버(Virtual Influencer)라고 불리는 딥러닝과 3D 그래픽스 등의 기술을 활용하여 만들어진 가상 캐릭터들이 유튜브에 등장하였다, 이들은 자연스러운 외모와 동작, 그리고 특유의 개성을 가지고 있어서 실제 인간처럼 느껴진다. 대표적으로 릴 미켈라 (Lil Miquela)은 인스타그램에서 활동하는 대표적인 가상 인플루언서인데, 음악, 패션, 라이프스타일 등 다양한 주제로 소셜 미디어에서 활동하며 다양한 브랜드와 협업을 이루고 있다. 셀레니트 (Shudu)3D 아티스트인 캐롤리나 프로코비아가 만든 디지털 모델로, 아프리칸 퀸을 현대적으로 재해석한 캐릭터이다. 셀레니트는 패션 브랜드와의 협업으로 화제를 모으고 있다.

 

이러한 현실은 기업들로 인해 가속화되고 있다. 메타(페이스북)가 개발한 호라이즌 월드는 가상 현실 기반의 플랫폼으로, VR을 활용하여 현실과 가상이 결합된 환경에서 협업과 소통을 가능케 한다. 마이크로소프트 메시 포 팀즈는 3D 플랫폼으로, MS 팀즈와 통합되어 인공지능과 메타버스를 융합하여 원격 협업을 효과적으로 제공한다. 엔비디아 옴니버스는 디지털 트윈 공간 솔루션으로, 가상의 환경을 현실과 유사하게 만들어낸다. 이러한 기술들은 디지털 테라포밍으로 또 하나의 디지털 지구를 만들어가는 것과 같다.

 

현재 보도 분야에서는 음성을 텍스트로 변환하고 얼굴 인식, 감정 분석, 장소 인식 등을 통해 자동 메타데이터를 강화하여 논평이나 인터뷰에 더 많은 콘텍스트를 제공하는 추세이다. 매스테인먼트(Masstainment)는 매스커뮤니케이션과 엔터테인먼트가 융합된 미디어 형태로 프레임 내에 인공지능과 비디오 코덱 압축을 활용하여 누구나 쉽게 영상 콘텐츠를 제작하고 공유할 수 있는 환경에서 융복합콘텐츠들을 생산하고 있다. 이처럼, AI 기술의 고도화로 개인 맞춤형 미디어가 생성되고 미디어제작의 빅뱅이 되고 있다.

 

향후, 인공지능과 메타버스의 발전은 LLM (Large Language Model)과 같은 대용량 언어 모델과 어포던스(adherence)디자인으로 사용의 편리성을 얼마나 높일 것인지에 따라 확산이 결정될 것으로 보인다. LLM은 스크립트 작성 자동화, 자동 번역 및 자막 생성, 콘텐츠 편집 보조, 인터랙티브 대화 콘텐츠의 이러한 기능들을 얼마나 업데이트 하는 가의 정도가 영향을 줄 것이다. 또한, 어포던스(adherence)는 어떤 행동을 유도하거나 지속시키는 개념을 나타내는 디자인 원칙으로 특정한 환경에서 사용자가 원하는 행동을 하도록 설계된 구조나 시각적인 요소를 의미한다. 따라서, 크리에이터 영상에서 어포던스 디자인의 활용은 사용자 경험을 향상시키고 특정 행동을 촉진하는 데 중요한 역할을 할 것으로 예상된다.

 

미디어의 새로운 역사를 준비해야 할 때

 

"The Buggles'Video Killed The Radio Star'라는 노래는 비디오가 라디오 스타를 대체하여 새로운 미디어의 문을 열었다는 메시지를 전하고 있다. 그러나 새로운 미디어가 부상하더라도 기존의 미디어들은 여전히 공존해왔다. 앞으로는 더욱 더 인공지능과 메타버스가 크리에이터들에게 창의성, 자동화, 협업, 대화형 경험 등 다양한 측면에서 혁신적인 영향을 미칠 것이다. 실제로 2023년 더크리에이터와 넷플릭스의 빅버그는 새로운 크리에이터 영상의 황금시대를 예고하는 것과 같다. 이제는 단순한 공존을 넘어 새로운 디지털 대륙에 나아갈 시대를 준비해야 할 때이다. 미디어의 새로운 역사가 시작되고 있다.