We also replace the phoneme representations
input
output
model architecture
한국어에 대해서는 pretrained acoustic text encoder를 그냥 사용하는 중.