https://arxiv.org/pdf/2403.03100.pdf

1. Abstract

Zero-shot으로 텍스트에서 음성을 생성

Factorized Diffusion 모델(요소화된 Diffusion)

생성모델을 Detail, Content, Prosody, Duration, 음소 단위로 분할 ⇒ 다양한 스타일의 음성 생성

Untitled

지난 버전들

NaturalSpeech 1(2022): Single Speaker

NaturalSpeech 2(2023): Latent Diffusion Model 적용

NaturalSpeech 3(2024): Factorized Diffusion 모델 적용해서 다양화

2. Contribution

  1. 속성 분리를 위한 Neural Speech Codec (FACodec)

  2. 요소화된 Diffusion 모델로 음성 속성을 요소별로 각각 나눠서 생성하는 기법