Teacher State-Policy Supervision

문제점:
- RL은 시도와 오류를 통한 반복 학습이 필요하지만,
- 복잡하고 고차원적인 환경에서는 유용한 보상 신호를 얻기 위해 많은 시뮬레이션과 시간이 필요함
- 관측 공간에서의 직접적인 RL 학습은 샘플 효율이 낮고 학습 속도가 느림
해결 방법: 두 단계 접근법(two-step approach)

a. 교사 상태 정책 학습
- 환경을 완전히 관측 가능하다고 가정
- 시뮬레이션에서 **상태 기반 정책 πs(at∣st)**학습
- 보상 함수(예: 보행 파라미터)를 조정하여 빠르고 효율적인 학습 수행
b. 관측 정책으로 지식 전이
- 학습된 상태 정책을 KL 발산(KL divergence)을 통해 관측 기반 정책으로 증류(distillation)
- 관측 정책은 이를 기반으로 더 빠르고 안정적으로 학습됨
핵심 효과:
- 초기 학습 속도 향상
- 복잡한 환경에서도 안정적인 정책 형성 가능