https://arxiv.org/pdf/2403.03100.pdf
Zero-shot으로 텍스트에서 음성을 생성
Factorized Diffusion 모델(요소화된 Diffusion)
생성모델을 Detail, Content, Prosody, Duration, 음소 단위로 분할 ⇒ 다양한 스타일의 음성 생성

지난 버전들
NaturalSpeech 1(2022): Single Speaker
NaturalSpeech 2(2023): Latent Diffusion Model 적용
NaturalSpeech 3(2024): Factorized Diffusion 모델 적용해서 다양화
속성 분리를 위한 Neural Speech Codec (FACodec)
요소화된 Diffusion 모델로 음성 속성을 요소별로 각각 나눠서 생성하는 기법