본 논문은 언어 모델의 Instruction Tuning 과정에서 기존의 Completion(Output) 부분에만 Loss를 계산하던 방식에서 벗어나, Instruction(Prompt) 부분까지 Loss 계산에 포함하는 Instruction Modelling (IM)을 제안합니다. 저자들은 이 간단한 변경이 별도의 하이퍼파라미터 추가 없이 효과적인 정규화(regularization) 기법으로 작용하여 과적합(overfitting)을 완화한다고 주장합니다. 특히, (1) 학습 데이터의 Instruction 대비 Output 길이가 긴 경우나 (2) Superficial Alignment Hypothesis (SAH)에 부합하는 적은 양의 데이터로 fine-tuning하는 시나리오에서 IM의 효과가 두드러짐을 실험적으로 입증했습니다.

기존의 Instruction Tuning(IT)은 입력을 명령어 I와 응답 C의 결합으로 구성하고, 다음 수식으로 표현한다:

$$

P(C_1, C_2, \dots, C_n | I_1, I_2, \dots, I_m) = \prod_{j=1}^{n} P(C_j | I_1, I_2, \dots, I_m, C_1, \dots, C_{j-1})

$$

본 논문에서 제안한 Instruction Modelling(IM) 방법론은 명령어 자체와 응답 모두에 손실을 적용하되, 템플릿 토큰(template tokens)은 제외한다. 명령어와 응답을 결합한 전체 입력 $x$를 다음과 같이 표현한다:

$$ P(x) = P(I_1, I_2, \dots, I_m, C_1, C_2, \dots, C_n) = \prod_{t=1}^{m+n} P(x_t | x_1, x_2, \dots, x_{t-1}) $$

손실 함수는 템플릿 토큰(T)을 제외한 나머지 토큰들에 대해 계산한다:

$$ L = -\sum_{t=1}^{m+n} \log P(x_t | x_1, x_2, \dots, x_{t-1}) \cdot \mathbf{1}(x_t \notin T) $$

주요 실험 결과

image.png

image.png

image.png

  1. 일반 NLP 성능 개선
  2. 명령어 길이 대비 응답 길이의 비율이 높을 때 성능 상승 폭 증가
  3. 소규모 데이터셋에서 더욱 효과적 (Superficial Alignment Hypothesis)

성능 향상 메커니즘 분석 (과적합 방지)

저자들은 IM이 성능을 향상시키는 이유를 과적합(overfitting) 방지 효과로 분석했다:

KL-divergence를 통한 정규화로는 이러한 과적합 문제를 효과적으로 해결하기 어려웠음이 확인됨.