해결 방법: 두 단계 접근법(two-step approach)
a. 교사 상태 정책 학습
- 환경을 완전히 관측 가능하다고 가정
- 시뮬레이션에서 **상태 기반 정책 πs(at∣st)**학습
- 보상 함수(예: 보행 파라미터)를 조정하여 빠르고 효율적인 학습 수행
b. 관측 정책으로 지식 전이
- 학습된 상태 정책을 KL 발산(KL divergence)을 통해 관측 기반 정책으로 증류(distillation)
- 관측 정책은 이를 기반으로 더 빠르고 안정적으로 학습됨