
| 센서 / 정보 | 전처리 모듈 | 아웃풋 토큰 (임베딩 dim = 2048) |
|---|---|---|
| RGB 이미지 2 ~ 3장 (224²) | ViT‑L encoders (PaliGemma와 동일) → 14×14 patch = 196 토큰/이미지 | 196 × n_img |
| 언어 지시 ℓₜ | SentencePiece tokenizer → ID | ≈ 15 토큰 |
| Preprioception qₜ (7 ~ 14 joint angles) | Linear Proj(d_state→2048) | 1 토큰 |
| 노이즈 액션 Aτ t (H = 50, τ∈[0,1]) | MLP+τ 삽입 W3·swish(W2·concat(W1·aτ, ϕ(τ))) | 50 토큰 |