1. 개요

장점

이전 비디오 생성 모델들과 달리 최대 1분 길이의 일관성 있는 비디오 생성 가능
prompt 내의 여러 요소들의 상관관계를 판단 가

기술

pre-trained diffusion transformer 모델 사용
LLM 모델과 같이 instruction을 이해하는 능력 탑재
컴퓨팅 자원 절약을 위해 spacetime latent paches 이용
- input video를 latent spacetime representation으로 압축 → 압축된 비디오로부터 spacetime latenet patch들의 순서 추출 ⇒ 짧은 인터벌 사이의 시각적 표현과 움직임 데이터 보존?

효과

현실/가상 세계 시뮬레이션
교육 영상 제작
창의적 영상물의 제작
영상 제작 기술에 대한 접근성 증대

한계

복잡한 동작이나 미묘한 표정의 묘사
편향, 유해한 영상의 생성 제한 필요