NaturalSpeech3

Zero-shot으로 텍스트에서 음성을 생성

Factorized Diffusion 모델(요소화된 Diffusion)

생성모델을 Detail, Content, Prosody, Duration, 음소 단위로 분할 ⇒ 다양한 스타일의 음성 생성

Untitled

지난 버전들

NaturalSpeech 1(2022): Single Speaker

NaturalSpeech 2(2023): Latent Diffusion Model 적용

NaturalSpeech 3(2024): Factorized Diffusion 모델 적용해서 다양화