Instruction Tuning With Loss Over Instructions

본 논문은 언어 모델의 Instruction Tuning 과정에서 기존의 Completion(Output) 부분에만 Loss를 계산하던 방식에서 벗어나, Instruction(Prompt) 부분까지 Loss 계산에 포함하는 Instruction Modelling (IM)을 제안합니다. 저자들은 이 간단한 변경이 별도의 하이퍼파라미터 추가 없이 효과적인 정규화(regularization) 기법으로 작용하여 과적합(overfitting)을 완화한다고 주장합니다. 특히, (1) 학습 데이터의 Instruction 대비 Output 길이가 긴 경우나 (2) Superficial Alignment Hypothesis (SAH)에 부합하는 적은 양의 데이터로 fine-tuning하는 시나리오에서 IM의 효과가 두드러짐을 실험적으로 입증했습니다.

기존의 Instruction Tuning(IT)은 입력을 명령어 I와 응답 C의 결합으로 구성하고, 다음 수식으로 표현한다:

P(C_1, C_2, \dots, C_n | I_1, I_2, \dots, I_m) = \prod_{j=1}^{n} P(C_j | I_1, I_2, \dots, I_m, C_1, \dots, C_{j-1})

본 논문에서 제안한 Instruction Modelling(IM) 방법론은 명령어 자체와 응답 모두에 손실을 적용하되, 템플릿 토큰(template tokens)은 제외한다. 명령어와 응답을 결합한 전체 입력 $x$를 다음과 같이 표현한다:

$$ P(x) = P(I_1, I_2, \dots, I_m, C_1, C_2, \dots, C_n) = \prod_{t=1}^{m+n} P(x_t | x_1, x_2, \dots, x_{t-1}) $$

손실 함수는 템플릿 토큰(T)을 제외한 나머지 토큰들에 대해 계산한다:

$$ L = -\sum_{t=1}^{m+n} \log P(x_t | x_1, x_2, \dots, x_{t-1}) \cdot \mathbf{1}(x_t \notin T) $$

주요 실험 결과

일반 NLP 성능 개선
- IM 방법론 적용 시 기존 IT 대비 전반적 NLP 태스크에서 평균 성능이 상승.
- AlpacaEval 1.0 같은 생성 태스크의 경우 성능이 최대 100% 이상 향상됨.
명령어 길이 대비 응답 길이의 비율이 높을 때 성능 상승 폭 증가
- 명령어 길이가 길고 응답이 짧은 데이터셋(e.g., Code Alpaca, Less MMLU Chat)에서 IM이 큰 효과를 보임.
소규모 데이터셋에서 더욱 효과적 (Superficial Alignment Hypothesis)
- 소규모 데이터셋이나 적은 예제를 사용한 학습 환경에서 IM의 성능 향상 효과가 두드러짐.

성능 향상 메커니즘 분석 (과적합 방지)

저자들은 IM이 성능을 향상시키는 이유를 과적합(overfitting) 방지 효과로 분석했다:

IM은 IT보다 훈련 데이터셋에서의 손실(loss)은 높지만, 새로운 데이터셋에 대한 테스트 손실(test loss)은 낮음.
IM의 생성 결과는 BLEU 점수가 낮아(즉, 훈련 데이터와 덜 유사) 과적합 방지 효과를 나타냄.
epoch가 늘어나도 NLP 태스크에서의 성능 저하(Instruction Tuning Tax)가 적음.

KL-divergence를 통한 정규화로는 이러한 과적합 문제를 효과적으로 해결하기 어려웠음이 확인됨.