1. Introduction

The main contibutions of this work(4가지 의의)

2. WaveNet (WaveNet 모델 구조)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3bf39155-61aa-4250-a443-5fe6dc2670ee/Untitled.png

Figure 1 : WaveNet의 전체 구조

WaveNet은 30개의 Residaul Block을 쌓은 형태의 구조를 갖고 있습니다. 정수 배열을 Input으로 받아 첫번째 Residaul Block부터 30번째 Residual Block까지 차례대로 들어갑니다. 각각의 Residual Block으로부터 생성된 Output은 Skip Connection을 통해 합쳐지고 이를 모델의 Output으로 활용합니다.

WaveNet은 확률론적 모형(Probabilistic Model)으로써 음성데이터를 생성할 때 다음과 같이 조건부 확률을 사용합니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/4daf694e-1913-4a6b-97df-3a2319ae5653/Untitled.png

T개의 배열로 구성된 음성 데이터 x_1, …, x_{T-1} ,x_{T} 열이 주어졌을 때 음성으로써 성립할 확률 P(x_1, …, x_{T-1} ,x_{T}) 을 학습하여 이후 생성에 활용합니다.