๐ Command-Conditioned Locomotion Control (๋ช
๋ น ๊ธฐ๋ฐ ๋ณดํ ์ ์ด)
โ
๋ชฉํ: Unitree H1 ๋ก๋ด์ ์ํ ๊ฐ์ธํ ์ ์ด ์ ์ฑ
(Robust Control Policy) ๊ฐ๋ฐ
- ์ฌ์ฉ์๊ฐ ์ง์ ํ๋ ๋ช
๋ น์ ๊ธฐ๋ฐ์ผ๋ก ๋ณดํ ์ ์ด
โ
๋ชฉํ ๊ณต๊ฐ (Goal Space, $G_m$)
$$
G_m = โจv, rpy, hโฉ
$$
- $v \in R^3$ : ์ ํ ์๋ (Linear Velocity)
- $rpy \in R^3$ : ๋ชธ์ฒด์ ๋กค/ํผ์น/์(Roll/Pitch/Yaw)
- h: ๋ฃจํธ ๋งํฌ(Root Link) ๊ธฐ์ค์ ๋ชธ์ฒด ๋์ด
โ
๊ด์ฐฐ ๊ณต๊ฐ (Observation Space, S)
$$
S = [\omega_t, r_t, p_t, \Delta y, q_t, \dot{q}t, a{t-1}]^T
$$
- $\omega_t$: ๋ก๋ด ๋ฃจํธ์ ๊ฐ์๋(Angular Velocity)
- $r_t, p_t$ : ๋ชธ์ฒด์ ๋กค(Roll) ๋ฐ ํผ์น(Pitch)
- $\Delta y = y_t - y$ : ํ์ฌ์ ๋ชฉํ ๊ฐ์ ์(Yaw) ์ฐจ์ด
- ์ ๋์ ์ธ ์(yaw) ๊ฐ ๋์ ์ฐจ์ด๊ฐ์ ์ฌ์ฉํ์ฌ ๋ก์ปฌ ํ๋ ์ ๊ธฐ์ค์ ์ง๊ด์ ์ธ ๋ช
๋ น ์ํ ๊ฐ๋ฅ
- $q_t$ : ๊ด์ ์์น(Joint Position)
- $\dot{q}_t$ : ๊ด์ ์๋(Joint Velocity)
- $a_{t-1}$ : ์ด์ ์๊ฐ ์คํ
์ ํ๋(Action)
โ
ํ๋ ๊ณต๊ฐ (Action Space, A)