Paper: https://arxiv.org/pdf/2308.16569.pdf

Code: https://github.com/thuhcsi/LightGrad/

Demo: https://thuhcsi.github.io/LightGrad/

2023년 발표, Jie Chen 외 5명

INTRO

  1. DPMs 기반 TTS는 아직 엣지 디바이스에서 돌리기에 무거움
  2. 추론 시 많은 denoising step이 필요하며 이로 인해 레이턴시를 늘림

⇒ 파라미터 수를 줄이면서도 Grad-TTS와 비슷한 음성 품질을 유지

(파라미터 수 약 62%감소, 레이턴시 약 65%감소)

CONTRIBUTION

(베이스 논문 Grad-TTS와 다른점)

lightweight U-Net 디코더: 일반적인 컨볼루션 대신 깊이별 분리 컨볼루션을 사용하여 파라미터 수를 크게 감소

빠른 샘플링 기술: DPM의 샘플링 과정을 가속화하기 위해 ODE(상미분방정식) 기반의 샘플링 방법을 적용, 추론 시간을 단축

[26] Cheng Lu, “Dpm-solver: A fast ODE solver for DPM sampling in around 10 steps,” 의 아이디어를 참조

스트리밍 추론: 실시간성 향상을 위해 입력 데이터를 작은 청크로 분할하여 처리하는 방식을 도입