[논문리뷰] WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

1. Introduction

The main contibutions of this work(4가지 의의)

WaveNet은 자연스러운 음성 파형(raw speech signals)을 직접 생성합니다.
긴 음성 파형을 학습하고 생성할 수 있는 새로운 구조를 제시합니다.(dilated causal convolutions)
학습된 모델은 다양한 특징적인 음성(different voices)을 생성할 수 있습니다.
음성인식 및 음악을 포함한 다양한 음성 생성분야에서도 좋은 성능을 보입니다.

2. WaveNet (WaveNet 모델 구조)

Figure 1 : WaveNet의 전체 구조

WaveNet은 30개의 Residaul Block을 쌓은 형태의 구조를 갖고 있습니다. 정수 배열을 Input으로 받아 첫번째 Residaul Block부터 30번째 Residual Block까지 차례대로 들어갑니다. 각각의 Residual Block으로부터 생성된 Output은 Skip Connection을 통해 합쳐지고 이를 모델의 Output으로 활용합니다.

WaveNet은 확률론적 모형(Probabilistic Model)으로써 음성데이터를 생성할 때 다음과 같이 조건부 확률을 사용합니다.

T개의 배열로 구성된 음성 데이터 x_1, …, x_{T-1} ,x_{T} 열이 주어졌을 때 음성으로써 성립할 확률 P(x_1, …, x_{T-1} ,x_{T}) 을 학습하여 이후 생성에 활용합니다.