1. 개요
장점
- 이전 비디오 생성 모델들과 달리 최대 1분 길이의 일관성 있는 비디오 생성 가능
- prompt 내의 여러 요소들의 상관관계를 판단 가
기술
pre-trained diffusion transformer
모델 사용
- LLM 모델과 같이 instruction을 이해하는 능력 탑재
- 컴퓨팅 자원 절약을 위해
spacetime latent paches
이용
- input video를 latent spacetime representation으로 압축 → 압축된 비디오로부터 spacetime latenet patch들의 순서 추출 ⇒ 짧은 인터벌 사이의 시각적 표현과 움직임 데이터 보존?
효과
- 현실/가상 세계 시뮬레이션
- 교육 영상 제작
- 창의적 영상물의 제작
- 영상 제작 기술에 대한 접근성 증대
한계
- 복잡한 동작이나 미묘한 표정의 묘사
- 편향, 유해한 영상의 생성 제한 필요