Learning humanoid locomotion with transformers

Abstract

완전 학습 기반(fully learning-based) 접근 방식을 활용한 실제 환경에서의 휴머노이드 보행 제어 제안

해당 논문에서는, 컨트롤러로 인과적 트랜스포머(causal transformer)를 사용

자기수용 감각(proprioceptive) 관찰과 행동의 이력을 입력으로 받아 다음 행동을 예측
이전 관찰-행동 이력이 환경에 대한 유용한 정보를 포함하고 있으며, 강력한 트랜스포머 모델이 가중치를 업데이트하지 않고(in-context adaptation)도 이를 활용하여 행동을 적응시킬 수 있다고 가정

대규모 모델 프리 강화학습(model-free reinforcement learning)**을 활용하여 시뮬레이션 내 다양한 랜덤 환경에서 훈련

실제 환경에 사전 학습 없이(zero-shot) 직접 배포

다양한 야외 지형에서 보행 가능, 외부 교란에 대한 강건성 유지, 환경에 따른 적응 능력

fully observable environment를 가정하고, teacher state policy $\pi_s(a_t | s_t)$ 학습.
teacher imitation과 강화 학습(reinforcement learning)을 결합하여 student observation policy학습.

Neural Network 구조

causal transformer 모델을 활용한 뉴럴 네트워크 컨트롤러
과거 관측(observations) 및 행동(actions) 이력을 기반으로, 다음 행동을 자동 회귀 방식(autoregressive prediction)으로 예측하도록 훈련
관측-행동 이력이 환경에 대한 유용한 정보를 포함하고 있으며, 강력한 트랜스포머 모델이 이를 활용하여 가중치를 업데이트하지 않고(in-context) 행동을 조정할 수 있다고 가정.