pad_token=eos_token으로 주로 설정하는 이유

CausalLM의 경우, max_token까지 답변을 계속하지 않고 instruction에 해당하는 답변이 끝나면 답변을 중지하는 것이 바람직하지만 pad_token=eos_token으로 설정할 경우 모델이 eos_token을 제대로 학습하지 못하여 답변을 반복하는 문제가 있음
해결 방법 : pad_token을 따로 추가한 후 embedding resize
tokenizer.add_special_tokens({'pad_token': '<PAD>'})
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

