Improving Language Understanding by Generative Pre-Training

— "생성적 사전 학습을 이용한 언어 이해의 개선" —

본 논문에서 소개되고 있는 GPT 모델은 이전의 많은 연구들에서와 같이, 레이블링이 되지 않은 대량의 raw text data로부터 의미있는 linguistic information (textual representation) 을 담고 있는 사전 학습 모델을 만들어 Downstream task 들에 효과적으로 이용하기 위해 만들어졌습니다.

논문의 저자들은 다양한 종류의 task들에 약간의 adaptation 만으로 성송적으로 universal representation을 전이하는 것을 목표로 하였다고 합니다.

실제로 GPT 모델은 Transformer의 Decoder architecture를 이용해 비지도 학습 방식으로 model의 initial parameter들을 pre-training 하고, fine-tuning 과정에서 각 task에 맞게 input transformation과 마지막 단의 Linear layer를 추가해 모델 architecture의 변화를 최소로 하였습니다.

GPT 모델은 task-aware input transformation을 이용해 fine-tuning 과정에서 model architecture에는 최소한의 변화만을 주면서 효과적으로 representation을 전이할 수 있었고, 자연어 이해를 위한 이와 같은 접근 방식의 효과를 입증하였습니다. task agnostic한 모델로 여러 Benchmark에서 task specific한 모델들을 뛰어넘는 성능을 보여주었고 12개의 task 중 9개의 task에서 SOTA 성능을 달성했습니다.

하지만 저자들은 단어 수준 이상의 information을 활용하는 어려움을 두 가지 이유로 설명합니다. 첫째, 어떤 optimization objective 를 사용하는 것이 가장 효과적인지가 불명확하다. 최근의 연구들에서는 language modeling, machine translation, discourse coherence 등 다양한 objective들을 관찰했지만 각기 다른 task에서 서로 다른 방법들을 능가하는 결과를 보였습니다. 둘째, 학습된 representation을 target task에 전이하기 위한 가장 효과적인 방법이 존재하지 않는다. 기존의 technique은 모델의 구조를 task specific 변경하는 방법을 사용하거나, 복잡한 학습 구조를 이용하거나, auxiliary learning objective를 더하는 방법을 이용하였다. 이러한 불확실성은 자연어 처리에 대한 효과적인 준지도 학습 방식을 더욱 발전시키기 어렵게 만들고 있다.

모델 아키텍처는 사전 학습에서 트랜스포머 디코더 부분의 multi-head self attention layer와 position-wise feedforward layer를 사용해 언어 모델을 학습하였고, fine-tuning 과정에는 task에 따라 Linear layer를 적절히 추가해 target task와 auxiliary language modeling을 학습하였습니다. 이 때 연구진들은 보조 objective가 large datasets 에서는 성능을 올리는데 도움이 되지만 small datasets에서는 오히려 target task 만을 학습하는 것이 좋다고 설명하였습니다.