Joint optimization with reinforcement learning.

→ 상태 정책 지도 학습만으로는 최적이 아닌 의사결정(suboptimal decision-making)이 발생할 수 있다.

이는 두 공간이 서로 다른 보상 구조(reward manifold)를 형성하기 때문이다.

이 문제를 해결하기 위해 우리는 **강화학습 손실(RL loss)과 상태 정책 지도(state-policy supervision)**를 결합한 공동 최적화 방식(joint optimization)을 도입한다.

👉 이때 λ는 훈련 초반에는 크게 시작하여,

→ 훈련 중반쯤에 0으로 점진적 감소(annealing)

→ 초기에 교사 정책의 도움을 받다가, 이후에는 스스로 능가하도록 유도

*사전 생성된 궤적(pre-computed trajectories)**이나 오프라인 데이터셋 없이

→ on-policy 학습 방식으로 직접 최적화 수행
강화학습 알고리즘: PPO (Proximal Policy Optimization) 사용
학습 구조: actor-critic 방식 사용, 단 가중치 공유하지 않음