Open AI, 텍스트를 동영상으로 만들어주는 '소라'공개

섬세한 영상 제공으로 현재까지 나온 TTV 모델 중 가장 우수

유종민 승인 2024.02.16 16:54 의견 0
Open AI가 공개한 Text to Video 영상 중 한 장면 / 사진=Open AI


ChatGPT의 개발사인 Open AI가 텍스트 기반으로 동영상을 만들어주는(text to video 모델) 인공지능(AI) 서비스 '소라(Sora)'를 15일(현지시간) 공개했다.

소라(https://openai.com/sora)는 텍스트를 입력하면 최대 1분 길이의 동영상을 제작해준다.

Open AI는 "소라는 정적인 노이즈처럼 보이는 비디오로 시작하여 여러 단계를 거쳐 노이즈를 제거하여 점차적으로 비디오를 변형시키는 확산 모델"이라고 기술을 설명했다.

텍스트 외에도 이미지를 넣어줘도 동영상을 제작해준다. 또 기존 동영상 넣어서 동영상을 확장하거나 누락된 프레임을 채워주기도 한다.

Open AI는 "소라는 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있다"며 "한 번에 여러 프레임에 대한 모델 예측을 제공함으로써 피사체가 일시적으로 시야에서 사라질 때에도 동일하게 유지되어야 하는 어려운 문제를 해결했다"고 설명했다.

GPT 모델과 유사하게 Sora는 변환기 아키텍처를 사용하여 뛰어난 확장 성능을 제공한다.

Open AI는 "비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사합니다. 데이터를 표현하는 방법을 통합함으로써 다양한 기간, 해상도 및 종횡비에 걸쳐 이전보다 더 광범위한 시각적 데이터에 대한 확산 변환기를 교육할 수 있다"고 밝혔다.

Open AI의 설명에 따르면 소라는 DALL·E 및 GPT 모델에 대한 과거 연구를 기반으로 한다. 이는 시각적 훈련 데이터에 대해 매우 설명적인 캡션을 생성하는 DALL·E 3의 재캡션 기술을 사용한다. 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실하게 따를 수 있다.

텍스트 지침만으로 비디오를 생성할 수 있을 뿐만 아니라 모델은 기존 정지 이미지를 가져와서 비디오를 생성하여 이미지의 내용을 작은 세부 사항까지 정확하게 주의 깊게 애니메이션화할 수 있다.

Open AI는 "언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다”며 “사용자가 프롬프트에서 요구한 것뿐만 아니라 프롬프트가 물리적 세계에 어떻게 존재하는지 이해한다"고 밝혔다.

앞서 샘 올트먼 Open AI 최고경영자(CEO)는 소라를 처음에는 '제한된 창작자'만 사용할 수 있도록 허용한다고 엑스(X·옛 트위터)에서 밝힌 바 있다.

Open AI는 소라를 회사 제품에 통합하기 전에 전문가팀에 맡겨 안전성 여부를 평가할 계획으로 알려졌다.

메타, 구글, 런어웨이 AI 등도 '텍스트 투 비디오' 모델을 개발한 바 있지만 이번에 Open AI가 공개한 텍스트 투 비디오 모델 소라는 길이와 섬세함에서 기존에 나온 모델들을 압도한다는 평가를 받고 있다.

예상보다 뛰어나고 섬세한 영상 품질에 대해 한 사용자는 "놀랍다"는 반응을 보이며 "인류는 예상보다 더 빨리 멸망할 것 같다"는 농담을 덧붙였다.

저작권자 ⓒ 평판경제신문, 무단 전재 및 재배포 금지