QwenLong-L1 | Notion

<aside> 💡

Main Contributions

</aside>

Long-Context Reasoning Reinforcement Learning

RL과 관련하여 안정적인 한습을 위해 기존에 증명된 GRPO와 DAPO를 각각 채용
SFT →

1. Curriculum-Guided Phased Reinforcement Learning

점점더 긴 컨텍스트에 적응시키기 위해 단계별로 RL을 시행

Lk는 목표 컨텍스트 길이이고, Lk-1은 이전 스테이지의 목표 컨텍스트 길이이다. x는 쿼리 c는 컨텍스트
스테이지별로 점진적으로 컨텍스트의 길이를 늘려간다.
QWENLONG-L1모델에서는 L_1 L_2 두단계로 진행했고, L_0는 baseline 모델을 SFT하여 RL에 적응 할 수 있도록 했다. L_1의 목표 입력 길이는 20k이고, 2단계의 목표 입력 길이는 60k이다.
L_1에서 L_2로 진행되는 과정에서 Difficulty-Aware Retrospective Sampling을 통한 회고 샘플링을 진행하여 훈련데이터의 높은 난이도를 유지한다.
32 X A100_80GB GPU, batch: 128, mini batch 32, rollout number 8, learning rate 2e-6, temperature 0.7, 최대 10k 출력, top-p 0.95

2. Difficulty-Aware Retrospective Sampling

RL중 훈련데이터의 난이도를 유지하기 위해, 베이스모델이 해당 질문에 대한 평균보상의 역수로 난이도 정의, 즉 베이스 모델의 평균 보상이 낮을 수록 난이도가 높은 것으로 간주 다음 훈련데이터에 포함시키는 시스템

3. Warm-Up Supervised Fine-Tuning

RL을 진행하기 전 긴 컨텍스트 문맥을 이해하도록, 훈련 진행
교사 LRM으로 부터 데이터를 추출하여 사용