"Bidirectional Encoder Representations from Transformers"
모델 구현 Task
- 논문 3.2절의 Pre-training data에 제시된 데이터셋 활용
- Downstream task 데이터셋으로 GLUE Benchmark dataset 중 MRC용 1개 이상, Classification용 1개 이상을 활용하여 성능 측정
수행 목표
- 구현하여 학습한 Pre-trained Language Model architecture를 이용하여, 특정 하나의 downstream task를 선택해 재현
- 논문에서 제안하는 Pre-trained Language Model에 대해 이해하고 구현한 코드와 연관지어 설명할 수 있다.
- Pre-trained Language Model을 학습하기 위한 일련의 전처리 과정을 훈련
- (Optional) 분산학습(data parallel 또는 distributed data parallel) 적용해보기
논문 리뷰
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT는 2018년 10월 구글이 발표한 논문에서 소개 된 Pre-trained Language Model 입니다. 발표 당시 연구팀은 대량의 말뭉치에서 학습한 BERT 모델에 각 Downstream task에 맞는 1개의 output Layer만 추가하고 성능을 측정한 결과 총 11개의 자연어처리 Task에서 SOTA를 기록하였다고 이야기하였습니다. (GLUE score , MultiNLI accuracy , SQuAD v 1.1 question answering , SQuAD v 2.0 등)