문제

  1. 데이터 벽 : 로봇, 과제마다 새로 학습하면 시연 수집‑훈련 비용이 기하급수적으로 늘어 → 실제 공장·가정처럼 다양한 환경에 투입하기 어렵다.
  2. 모델 벽 : 기존 Vision‑Language‑Action(VLA) 계열은
    1. 행동을 저주파 1‑10 Hz Discrete 토큰으로만 표현해 섬세한 연속 제어가 힘듬
    2. 단일 팔·저난도 작업 데이터에 치우쳐 고난도·양팔·모바일 조작 일반화가 약함

해결

π0(파이‑제로) — VLM + Flow Matching Action Expert

  1. PaliGemma 3 B VLM Backbone으로 웹 규모 시각·언어 지식을 상속.
  2. Action Expert (300 M) 를 별도 expert로 추가해 50 Hz 연속 action chunk를 조건부 Flow Matching으로 생성하고 예측. 이를 통해 고주파, 다중모달 행동 분포를 정밀 모델링.
  3. 10 k h, 90 만번 시연, 7 개 플랫폼, 68 가지의 Task 크로스‑엠바디먼트 사전훈련 뒤, 과제 별 고품질 데이터로 짧게 Post‑training 하여 세탁물 접기·상자 조립 같은 장시간 다단계 작업까지 수행.

왜 효과적인가?

아키텍쳐

image.png

1. 입력 수집 & 토큰화 단계

센서 / 정보 전처리 모듈 아웃풋 토큰 (임베딩 dim = 2048)
RGB 이미지 2 ~ 3장 (224²) ViT‑L encoders (PaliGemma와 동일) → 14×14 patch = 196 토큰/이미지 196 × n_img
언어 지시 ℓₜ SentencePiece tokenizer → ID ≈ 15 토큰
Preprioception qₜ (7 ~ 14 joint angles) Linear Proj(d_state→2048) 1 토큰
노이즈 액션 Aτ t (H = 50, τ∈[0,1]) MLP+τ 삽입 W3·swish(W2·concat(W1·aτ, ϕ(τ))) 50 토큰