https://ivelopalways.tistory.com/entry/Deep-Learning-논문-리뷰-Diffusion-TransformerDiT-Scalable-Diffusion-Models-with-Transformers

U-DiT TTS: U-Diffusion Vision Transformer for Text-to-Speech

INTERSPEECH 2023

Introduction

TTS - 텍스트를 음성 언어로 변환하도록 설계된 컴퓨터 기반 시스템, 인간-컴퓨터 상호 작용(HCI)에서 널리 사용

DNN(심층 신경망) 기반 TTS 시스템은 일반적으로 acoustic model (음향 모델)과 vocoder의 두 가지 주요 구성 요소로 구성

Acoustic model은 입력 텍스트를 시간-주파수 도메인 acoustic feature로 변환한 다음 vocoder가 이러한 acoustic feature로 컨디셔닝된 파형을 합성

Sequence-to-sequence (seq2seq) 아키텍처에서 프레임별로 mel-spectrogram을 직접 생성하는 대신 생성 모델은 음성 신호의 latent 분포를 학습하고 여기에서 샘플링하여 새로운 신호를 합성하는 것을 목표로 한다.

최근 diffusion model이라고도 하는 score 기반 생성 모델 (SGM)은 많은 연구 분야에서 SOTA 성능을 달성

SGM은 계획된 noise를 반복적으로 추가하여 복잡한 데이터 분포를 점차 단순한 분포 (일반적으로 정규 분포)로 바꿀 수 있다는 단순하지만 효과적인 아이디어를 기반으로 역시간 forward process의 궤적을 따라 이 절차를 반전하도록 신경망을 학습

score 기반 생성 모델(SGM)에서 수정된 U-Net 아키텍처가 지금 diffusion model로 적합하다는 것이 입증

추가적인 공간적 self-attention 블록으로 로컬 및 글로벌 feature를 모두 캡처하는 기능은 연구 분야에서 널리 채택

U-Net 아키텍처의 추가 개선으로 Diffusion Visual Transformer (DiT)는 ViT를 diffusion model의 backbone으로 도입, U-DiT 아키텍처를 제안

diffusion 기반 TTS 시스템의 백본에서 핵심 구성 요소로 ViT 변환의 가능성을 탐색한 U-Net과 ViT의 속성을 결합함으로써 객관적인 결과와 MOS 결과 모두 U-DiT TTS가 최신 diffusion 기반 TTS 시스템에 비해 더 높은 품질의 음성과 더 자연스러운 운율을 생성

Score-based Generative Models

Score 기반 생성 모델 (SGM)은 확률적 미분 방정식 (SDE) 공식을 채택하는 통합 프레임워크