Model architecture.

관측-행동 토큰 표현 및 인과적 트랜스포머 (Observation-Action Tokens and Causal Transformer)

보행 궤적(locomotion trajectory) 내의 각 관측-행동 쌍(observation-action pair)을 하나의 토큰(token)으로 표현
트랜스포머(transformer)는 이러한 토큰들을 시간에 따라 반복적으로 가중치를 부여
토큰(V)을 특징 공간(feature space)으로 매핑
각 토큰 간의 구조적 정보(structural information)를 효과적으로 추출

→ 보행(gait)이나 지면 접촉 상태(contact state)와 같은

→ **중요한 정보를 추론(infer)하는 데 도움을 준다

시퀀스 내 각 토큰의 위치 정보(positional information)**를 반영하기 위해

→ **사인파 기반 위치 인코딩(sinusoidal positional encoding)**을 추가로 더한다.