논문리뷰
"A Robustly Optimized BERT Pre-training Approach" - 2019. 07. 26
언어 모델을 사전 학습에 이용한 방식은 모델 퍼포먼스의 상당한 성능 향상을 가져다 주었지만 다른 접근 방식들과의 상세한 비교를 수행하는 것은 어려운 과제입니다.
Training의 계산 비용은 상당히 많이 소요되고, 종종 다른 사이즈의 Private 데이터셋으로 수행되며, 하이퍼파라미터의 선택이 최종 결과에 미치는 영향이 크기 때문입니다.
본 논문에서는 학습 데이터의 크기와 주요 하이퍼파라미터들의 영향을 측정하는 BERT Pre-training에 대한 Replication study 를 수행합니다.
연구를 통해 BERT 모델이 상당히 Under-trained 되어있었다는 사실을 발견하였고, BERT 이후에 공개되었던 모든 모델들의 Performance를 따라잡거나 능가할 수 있었습니다.
우리의 Best Model은 GLUE , RACE , SQuAD 등의 BenchMark에서 SOTA 성능을 달성하였고, 이 결과는 이전에는 간과되었던 Model design choice의 중요성을 강조하고 raise questions about the source of recently reported improvements. 최근 보고된 개선사항의 원인에 질문을 불러일으킵니다.
ELMo 나 BERT , GPT , XLM , XLNet 과 같은 Self-Training Method 들은 상당한 성능 향상을 가져다 주었지만, 이 Method 들의 어떤 측면이 이러한 성능 향상을 가져다 주었는가에 대해서는 쉽게 결론내려지지 않는다.