a) Command-conditioned Locomotion Control

✅ 목표: Unitree H1 로봇을 위한 강인한 제어 정책(Robust Control Policy) 개발

✅ 목표 공간 (Goal Space, $G_m$)

$$ G_m = ⟨v, rpy, h⟩ $$

✅ 관찰 공간 (Observation Space, S)

$$ S = [\omega_t, r_t, p_t, \Delta y, q_t, \dot{q}t, a{t-1}]^T $$

$\omega_t$: 로봇 루트의 각속도(Angular Velocity)
$r_t, p_t$ : 몸체의 롤(Roll) 및 피치(Pitch)
$\Delta y = y_t - y$ : 현재와 목표 간의 요(Yaw) 차이
- 절대적인 요(yaw) 값 대신 차이값을 사용하여 로컬 프레임 기준의 직관적인 명령 수행 가능
$q_t$ : 관절 위치(Joint Position)
$\dot{q}_t$ : 관절 속도(Joint Velocity)
$a_{t-1}$ : 이전 시간 스텝의 행동(Action)

✅ 행동 공간 (Action Space, A)