<aside>
๐ก
Main Contributions
</aside>

Long-Context Reasoning Reinforcement Learning
- RL๊ณผ ๊ด๋ จํ์ฌ ์์ ์ ์ธ ํ์ต์ ์ํด ๊ธฐ์กด์ ์ฆ๋ช
๋ GRPO์ DAPO๋ฅผ ๊ฐ๊ฐ ์ฑ์ฉ
- SFT โ
1. Curriculum-Guided Phased Reinforcement Learning
- ์ ์ ๋ ๊ธด ์ปจํ
์คํธ์ ์ ์์ํค๊ธฐ ์ํด ๋จ๊ณ๋ณ๋ก RL์ ์ํ

- Lk๋ ๋ชฉํ ์ปจํ
์คํธ ๊ธธ์ด์ด๊ณ , Lk-1์ ์ด์ ์คํ
์ด์ง์ ๋ชฉํ ์ปจํ
์คํธ ๊ธธ์ด์ด๋ค. x๋ ์ฟผ๋ฆฌ c๋ ์ปจํ
์คํธ
- ์คํ
์ด์ง๋ณ๋ก ์ ์ง์ ์ผ๋ก ์ปจํ
์คํธ์ ๊ธธ์ด๋ฅผ ๋๋ ค๊ฐ๋ค.
- QWENLONG-L1๋ชจ๋ธ์์๋ L_1 L_2 ๋๋จ๊ณ๋ก ์งํํ๊ณ , L_0๋ baseline ๋ชจ๋ธ์ SFTํ์ฌ RL์ ์ ์ ํ ์ ์๋๋ก ํ๋ค. L_1์ ๋ชฉํ ์
๋ ฅ ๊ธธ์ด๋ 20k์ด๊ณ , 2๋จ๊ณ์ ๋ชฉํ ์
๋ ฅ ๊ธธ์ด๋ 60k์ด๋ค.
- L_1์์ L_2๋ก ์งํ๋๋ ๊ณผ์ ์์ Difficulty-Aware Retrospective Sampling์ ํตํ ํ๊ณ ์ํ๋ง์ ์งํํ์ฌ ํ๋ จ๋ฐ์ดํฐ์ ๋์ ๋์ด๋๋ฅผ ์ ์งํ๋ค.
- 32 X A100_80GB GPU, batch: 128, mini batch 32, rollout number 8, learning rate 2e-6, temperature 0.7, ์ต๋ 10k ์ถ๋ ฅ, top-p 0.95
2. Difficulty-Aware Retrospective Sampling
- RL์ค ํ๋ จ๋ฐ์ดํฐ์ ๋์ด๋๋ฅผ ์ ์งํ๊ธฐ ์ํด, ๋ฒ ์ด์ค๋ชจ๋ธ์ด ํด๋น ์ง๋ฌธ์ ๋ํ ํ๊ท ๋ณด์์ ์ญ์๋ก ๋์ด๋ ์ ์, ์ฆ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ํ๊ท ๋ณด์์ด ๋ฎ์ ์๋ก ๋์ด๋๊ฐ ๋์ ๊ฒ์ผ๋ก ๊ฐ์ฃผ ๋ค์ ํ๋ จ๋ฐ์ดํฐ์ ํฌํจ์ํค๋ ์์คํ

3. Warm-Up Supervised Fine-Tuning
- RL์ ์งํํ๊ธฐ ์ ๊ธด ์ปจํ
์คํธ ๋ฌธ๋งฅ์ ์ดํดํ๋๋ก, ํ๋ จ ์งํ
- ๊ต์ฌ LRM์ผ๋ก ๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ์ฌ ์ฌ์ฉ