pad_token v.s eos_token | Notion

기본 정보

pad_token=eos_token으로 주로 설정하는 이유

주의사항

CausalLM의 경우, max_token까지 답변을 계속하지 않고 instruction에 해당하는 답변이 끝나면 답변을 중지하는 것이 바람직하지만 pad_token=eos_token으로 설정할 경우 모델이 eos_token을 제대로 학습하지 못하여 답변을 반복하는 문제가 있음

해결 방법 : pad_token을 따로 추가한 후 embedding resize

tokenizer.add_special_tokens({'pad_token': '<PAD>'})
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

주의 : PEFT를 사용할 경우 PEFT를 해주기 전에 위 코드를 먼저 실행해주어야 함!

실험

PAD Token 추가 X

Untitled

PAD Token 추가

Untitled