E3 TTS: Easy End-to-End Diffusion-based Text to Speech

Yuan GaoNobuyuki MoriokaYu ZhangNanxin Chen (Google)

Accepted by IEEE ASRU 2023

논문 PDF: https://arxiv.org/pdf/2311.00945

코드 X, 데모 O

데모 페이지: https://e3tts.github.io/

(End to End 모델인데 데모 품질이 좋고 구조를 복잡하지 않게 만들었다 해서 가져와 봤습니다.)

ABSTRACT

We propose Easy End-to-End Diffusion-based Text to Speech, a simple and efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly takes plain text as input and generates an audio waveform through an iterative refinement process. Unlike many prior work, E3 TTS does not rely on any intermediate representations like spectrogram features or alignment information. Instead, E3 TTS models the temporal structure of the waveform through the diffusion process. Without relying on additional conditioning information, E3 TTS could support flexible latent structure within the given audio. This enables E3 TTS to be easily adapted for zero-shot tasks such as editing without any additional training. Experiments show that E3 TTS can generate high-fidelity audio, approaching the performance of a stateof-the-art neural TTS system.

1. INTRO & CONTRIBUTIONS

대부분의 기존 연구들에서는 2-stage 생성 과정에 기반했으며, 속도를 높이기 위한 AutoRegressive 방식의 보코더를 사용하기도 함.

본 연구에서는 Non-AutoRegressive의 End-to-End 방식으로 제안함.

⇒ Text align 전처리 과정 대신 사전학습된 BERT 모델을 활용하여 텍스트 정보를 추출

디퓨전 UNet 모델로 파형을 생성

2-stage 대신 1-stage 구조의 End to End로 설계 → 모델 구조를 단순화하면서 고품질의 출력 생성

2. TTS 구현의 복잡성

텍스트 일반화, 같은 단어지만 발음 표현 차이 발생하는 문제, 얼라인먼트 모델링