본 논문은 언어 모델의 Instruction Tuning 과정에서 기존의 Completion(Output) 부분에만 Loss를 계산하던 방식에서 벗어나, Instruction(Prompt) 부분까지 Loss 계산에 포함하는 Instruction Modelling (IM)을 제안합니다. 저자들은 이 간단한 변경이 별도의 하이퍼파라미터 추가 없이 효과적인 정규화(regularization) 기법으로 작용하여 과적합(overfitting)을 완화한다고 주장합니다. 특히, (1) 학습 데이터의 Instruction 대비 Output 길이가 긴 경우나 (2) Superficial Alignment Hypothesis (SAH)에 부합하는 적은 양의 데이터로 fine-tuning하는 시나리오에서 IM의 효과가 두드러짐을 실험적으로 입증했습니다.
기존의 Instruction Tuning(IT)은 입력을 명령어 I와 응답 C의 결합으로 구성하고, 다음 수식으로 표현한다:
$$
P(C_1, C_2, \dots, C_n | I_1, I_2, \dots, I_m) = \prod_{j=1}^{n} P(C_j | I_1, I_2, \dots, I_m, C_1, \dots, C_{j-1})
$$
본 논문에서 제안한 Instruction Modelling(IM) 방법론은 명령어 자체와 응답 모두에 손실을 적용하되, 템플릿 토큰(template tokens)은 제외한다. 명령어와 응답을 결합한 전체 입력 $x$를 다음과 같이 표현한다:
$$ P(x) = P(I_1, I_2, \dots, I_m, C_1, C_2, \dots, C_n) = \prod_{t=1}^{m+n} P(x_t | x_1, x_2, \dots, x_{t-1}) $$
손실 함수는 템플릿 토큰(T)을 제외한 나머지 토큰들에 대해 계산한다:
$$ L = -\sum_{t=1}^{m+n} \log P(x_t | x_1, x_2, \dots, x_{t-1}) \cdot \mathbf{1}(x_t \notin T) $$



저자들은 IM이 성능을 향상시키는 이유를 과적합(overfitting) 방지 효과로 분석했다:
KL-divergence를 통한 정규화로는 이러한 과적합 문제를 효과적으로 해결하기 어려웠음이 확인됨.