Learning Humanoid Locomotion with Transformers

Abstract

완전 학습 기반(fully learning-based) 접근 방식을 활용한 실제 환경에서의 휴머노이드 보행 제어 제안

해당 논문에서는, 컨트롤러로 인과적 트랜스포머(causal transformer)를 사용

대규모 모델 프리 강화학습(model-free reinforcement learning)**을 활용하여 시뮬레이션 내 다양한 랜덤 환경에서 훈련

실제 환경에 사전 학습 없이(zero-shot) 직접 배포

다양한 야외 지형에서 보행 가능, 외부 교란에 대한 강건성 유지, 환경에 따른 적응 능력

학습 과정

  1. fully observable environment를 가정하고, teacher state policy $\pi_s(a_t | s_t)$ 학습.
  2. teacher imitation과 강화 학습(reinforcement learning)을 결합하여 student observation policy학습.

Neural Network 구조

  1. causal transformer 모델을 활용한 뉴럴 네트워크 컨트롤러
  2. 과거 관측(observations) 및 행동(actions) 이력을 기반으로, 다음 행동을 자동 회귀 방식(autoregressive prediction)으로 예측하도록 훈련
  3. 관측-행동 이력이 환경에 대한 유용한 정보를 포함하고 있으며, 강력한 트랜스포머 모델이 이를 활용하여 가중치를 업데이트하지 않고(in-context) 행동을 조정할 수 있다고 가정.