멀티모달 AI와 비디오 이해가 미디어를 혁신하는 방법

글: | 4월 23, 2024

인공지능(AI)은 이제 어디에나 존재한다고 해도 과언이 아닙니다. 요즘은 어디를 가도 AI의 새로운 화신이나 애플리케이션을 보지 않고는 돌아설 수 없습니다. 비디오 및 영화 제작 분야가 그 어느 곳보다 더 그러합니다.

프리 프로덕션의 스크립트 작성과 로케이션 스카우팅부터 포스트 프로덕션의 오브젝트 제거와 장면 안정화까지, AI와 머신러닝(ML)의 인수는 현실이 되었습니다. 지루한 작업에 소요되는 시간이 줄어든다는 것은 M&E 전문가가 비용을 절약하고 더 가치 있는 작업에 귀중한 시간을 할애할 수 있다는 뜻입니다.

하지만 아마도 가장 혁신적이고 강력한 방법 중 하나는 비디오 세상을 혁신하는 AI 를 통해 비디오 이해.

이 게시물은 다음과 제휴하여 작성되었습니다. 12개의 랩는 비디오 이해를 위한 멀티모달 AI 분야의 선구자이며, 또한 블로그에 소개.

목차

대용량 데이터 세트를 위한 파일 전송

AI 처리를 위해 대용량 데이터 세트와 대용량 동영상 파일을 클라우드로 오프로드하는 가장 빠르고 쉬운 방법입니다.

비디오 이해란 무엇인가요?

비디오 이해 모델은 비디오 콘텐츠를 분석, 해석, 이해하여 비디오의 전체 맥락을 이해할 수 있도록 정보를 추출합니다.

플레이스홀더 이미지

사진 제공 대리점 올로웹 켜기 Unsplash

단순히 프레임 단위로 객체를 식별하거나 오디오 구성 요소를 파싱하는 것이 아닙니다. AI 기반 비디오 이해는 자연어를 비디오 내의 동작에 매핑합니다.. 이를 위해서는 활동 인식, 객체 감지 등 다양한 비디오 이해 작업을 수행하여 비디오의 시각, 오디오, 음성 요소를 처리하고 이해함으로써 가장 유동적인 미디어를 통해 전달되는 내용의 뉘앙스를 파악해야 합니다.

또한 비디오 데이터를 특별히 이해하도록 학습되지 않은 ChatGPT와 같은 대규모 언어 모델(LLM)과도 다릅니다.

간단히 말해, AI 동영상 이해 모델은 사람과 마찬가지로 동영상을 이해합니다.

이는 엄청난 도전이지만, 비디오 이해 인프라 회사인 Twelve Labs가 열심히 해결하고 있는 문제이기도 합니다.

이 기사에서 인공지능이 영화 제작에 미치는 영향에 대해 알아보세요.

인공 지능 및 영화 제작

인공지능이 영화 제작에 미치는 영향에 대한 분석과 함께 인공지능 기술이 영화 제작에 미치는 영향에 대해 살펴봅니다.

영화 제작의 AI >

미디어 및 엔터테인먼트에서 비디오 이해의 응용

심층 비디오 이해 기술을 자세히 알아보기 전에, 비디오 이해가 M&E 전문가와 비디오 콘텐츠 제작자의 작업을 어떻게 간소화할 수 있는지 살펴보겠습니다.

비디오 이해 모델이 메시가 특정 선수에게 공을 패스하는 장면을 인식합니다.

동영상 분류

AI 기반 동영상 이해 기능을 통해 동영상을 사전 정의된 클래스 또는 주제로 자동 분류할 수 있습니다. Twelve Labs의 분류 API를 사용하면 콘텐츠의 의미적 특징, 개체, 동작 및 기타 요소를 분석하여 스포츠, 뉴스, 엔터테인먼트 또는 다큐멘터리로 동영상을 구성할 수 있습니다.

이 모델은 다음을 수행할 수도 있습니다. 특정 장면 분류를 통해 광고 또는 콘텐츠 중재와 관련된 실제 애플리케이션을 강화할 수 있습니다. 예를 들어, 이 기술은 맥락에 따라 무기가 포함된 장면을 교육적, 극적 또는 폭력적인 것으로 식별할 수 있습니다.

이는 사용자의 관심사와 선호도에 따라 보다 정확한 추천을 제공함으로써 사용자 경험을 향상시킬 뿐만 아니라 크리에이터와 동영상 플랫폼에 도움이 됩니다. 또한 편집, 보관 또는 기타 목적으로 항목을 빠르게 찾고 기록해야 하는 포스트 프로덕션 전문가에게도 도움이 됩니다.

트웰브 랩의 기술에서 사용되는 모든 동영상에는 다음이 포함됩니다. 표준 메타데이터를 추가할 수 있는 옵션도 있습니다. 사용자 지정 메타데이터 를 동영상에 추가하여 보다 상세하거나 상황에 맞는 정보를 제공하세요.

비디오 이해는 감시 및 보안에서 스포츠 분석, 콘텐츠 조정, 상황별 광고에 이르기까지 비디오 분류를 완전히 뒤집을 수 있는 기능을 갖추고 있습니다.

동영상 설명

동영상 이해는 몇 초 만에 생성된 상세한 설명을 통해 동영상 데이터 세트를 자동으로 요약할 수 있습니다. 이 기술은 긴 동영상을 가장 중요한 콘텐츠를 간결하게 압축하여 이해도와 참여도를 높여줍니다.

이렇게 빠르고 상세한 요약은 설명적인 메타데이터와 요약으로 미디어를 풍부하게 만들 때 큰 도움이 될 수 있습니다. 특히 신체적 장애가 있거나 인지 장애가 있어 동영상 시청이 쉽지 않은 사람들에게 유용합니다.

미디어 및 엔터테인먼트 업계에서 동영상 설명 및 요약은 영화, TV 프로그램 및 기타 동영상 콘텐츠의 미리보기 또는 예고편을 만드는 데 사용할 수 있습니다. 이러한 미리보기는 콘텐츠에 대한 간결한 개요를 제공하고 시청자가 전체 동영상을 시청할지 여부를 결정하는 데 도움을 줍니다. 사용자 경험을 개선하는 것은 무엇이든 좋은 일입니다.

트웰브 랩스의 API 제품군 생성 는 동영상을 기반으로 텍스트를 생성합니다. 다양한 요구 사항을 충족하도록 맞춤화된 세 가지 엔드포인트를 제공합니다. 각 엔드포인트는 다양한 요구 사항을 수용하기 위해 특정 수준의 유연성과 사용자 지정으로 설계되었습니다.

  • The Gist API 는 제목, 주제, 관련 해시태그 목록과 같은 간결한 텍스트 출력을 생성할 수 있습니다.
  • The 요약 API 는 동영상 요약, 챕터 및 하이라이트를 생성하도록 설계되었습니다.
  • 사용자 지정 출력의 경우 API 생성 를 사용하면 글머리 기호부터 보고서, 동영상 콘텐츠에 따라 창의적인 가사까지 특정 형식과 스타일로 메시지를 표시할 수 있습니다.

비디오 이해의 기반이 되는 기술

"AI는 비디오 콘텐츠에 갇혀 있기 때문에 전 세계 데이터의 80%를 이해할 수 없습니다."라고 Twelve Labs의 CEO는 설명합니다. Jae Lee MASV와의 인터뷰에서 이렇게 말했습니다. "우리는 잠금을 해제하는 열쇠를 만듭니다."

실제로 신경망과 머신러닝을 사용하여 디지털 이미지를 이해하는 기존의 컴퓨터 비전(CV) 모델은 동영상 내의 맥락을 이해하는 데 항상 어려움을 겪어왔습니다. CV 모델은 사물과 행동을 식별하는 데는 뛰어나지만 사물과 사물 간의 관계는 파악하지 못합니다. 최근까지 이러한 차이로 인해 AI를 사용해 비디오 콘텐츠를 정확하게 분석하는 데 한계가 있었습니다.

트래비스 꾸뛰르트웰브 랩의 창립 솔루션 아키텍트인 에드워드 리는 이 문제를 콘텐츠와 컨텍스트로 구분했습니다.

"기존의 접근 방식은 비디오 콘텐츠를 프레임 단위로 분석하고 오디오 채널을 별도로 분리하여 트랜스크립션 작업을 하는 등 해결하기 쉬운 문제로 분류하는 것이었습니다. 이 두 가지 프로세스가 끝나면 모든 것을 다시 한데 모아 결과를 결합합니다.

"이렇게 무너졌다가 다시 세우는 작업을 하면콘텐츠는 있지만 컨텍스트가 없는 경우. 동영상에서는 컨텍스트가 가장 중요합니다.

"트웰브 랩의 목표는 기존의 컴퓨터 비전 접근 방식에서 벗어나 비디오 이해 영역으로 나아가는 것이며, 이는 사람이 하는 것처럼 비디오를 한꺼번에 처리하는 것을 의미합니다."

멀티모달 비디오 이해

멀티모달 AI란?

동영상은 역동적이고 계층적이며 유동적이기 때문에 여러 요소를 세분화하여 개별적으로 분석할 경우 전체가 합쳐지지 않습니다. 트웰브 랩스는 이 문제를 해결했습니다. 하지만 어떻게 해냈을까요?

고용함으로써 멀티모달 AI.

여기서 '양식'이라는 용어는 이벤트가 경험되는 방식을 의미합니다. 실제 세계와 마찬가지로 동영상에도 여러 가지 방식이 있습니다: 청각, 시각, 시간, 언어 등 다양한 모달리티가 있습니다.

"이러한 양상을 개별적으로 분석하고 다시 결합하려고 시도하면 다음과 같이 됩니다. 이소영"전체적인 이해와 맥락을 파악할 수 없습니다."

Twelve Labs는 멀티모달 접근 방식을 통해 인간이 비디오를 해석하는 방식을 재현하는 모델을 구축할 수 있었습니다. "우리의 마렌고 비디오 파운데이션 모델은 지각, 의미 및 컨텍스트 정보를 다음과 같이 제공합니다. 페가수스는 인간이 지각에서 처리와 논리로 나아가는 방식을 모방한 생성 모델입니다."라고 쿠튀르는 설명합니다.

인간의 뇌가 방대한 양의 정보를 끊임없이 받아들이고 해석하고 배열하는 것처럼, Twelve Labs의 멀티모달 AI는 여러 자극을 일관된 이해로 합성하는 것이 핵심입니다. 시간, 사물, 음성, 텍스트, 사람, 행동과 같은 변수를 중심으로 비디오에서 데이터를 추출하여 데이터를 벡터 또는 수학적 표현으로 합성합니다.

이를 위해 동작 인식 또는 동작 감지, 패턴 인식, 물체 감지, 장면 이해와 같은 작업을 사용합니다.

전체론적 비디오 이해를 위한 애플리케이션은 M&E와 그 너머에 이르기까지 매우 광범위하기 때문에 Twelve Labs는 샌드박스 환경을 제공합니다. 놀이터-를 통해 사용자가 동영상 이해 기술을 탐색하고 테스트할 수 있습니다. 이 회사는 또한 다음을 제공합니다. 문서 는 사용자가 단 몇 번의 API 호출만으로 동영상 이해 기능을 플랫폼에 내장할 수 있는 강력한 API를 제공합니다.

클라우드에서 AI 비디오 워크플로우를 지원하는 MASV 및 Twelve Labs

2023년 12월 기준 약 3억 2,877만 테라바이트 의 글로벌 데이터가 매일 생성되고 있습니다. 비디오가 53.27%를 차지했습니다.-그리고 계속 증가하고 있습니다. 비디오에 대한 이러한 극적이고 지속적인 변화는 Twelve Labs의 비디오 이해 기술을 매우 중요하게 만듭니다.

또한 MASV는 이미 방대하고 성장하고 있는 비디오의 잠재력을 잘 알고 있습니다. 마찰 없는 빠른 대용량 파일 전송 서비스는 다음과 같은 AI 처리를 위해 널리 사용되는 클라우드 환경으로 방대한 데이터 세트를 수집할 수 있습니다. Amazon S3를 사용하여 자동화된 안전한 파일 업로더를 사용합니다. 이를 통해 콘텐츠 수집을 간소화하여 다음을 지원할 수 있습니다. 비디오와 관련된 AI 워크플로 및 기타 대규모 데이터 세트.

사용자는 전송된 파일을 사용자의 S3 인스턴스에 자동으로 업로드하도록 MASV를 구성한 다음 Twelve Labs를 사용하여 아카이브/콘텐츠 검색 또는 동영상 요약과 같은 AI 동영상 이해 작업을 신속하게 처리할 수 있습니다.

AI 워크플로우용 MASV

MASV와 Twelve Labs를 테스트해보고 싶으신가요? MASV 가입하기 를 오늘 무료로 체험해보고 20GB의 무료 데이터를 받으세요. 트웰브 랩스 플레이그라운드 환경을 통해 비디오 이해의 힘이 어떤 효과를 가져올 수 있는지 살펴보세요.

클라우드에 빅 데이터 세트 수집

MASV는 비디오 트레이닝 데이터세트를 그 어느 때보다 빠르게 클라우드로 마이그레이션하여 AI 워크플로우를 시작할 수 있습니다.