pi-0 | Notion

문제

데이터 벽 : 로봇, 과제마다 새로 학습하면 시연 수집‑훈련 비용이 기하급수적으로 늘어 → 실제 공장·가정처럼 다양한 환경에 투입하기 어렵다.
모델 벽 : 기존 Vision‑Language‑Action(VLA) 계열은
1. 행동을 저주파 1‑10 Hz Discrete 토큰으로만 표현해 섬세한 연속 제어가 힘듬
2. 단일 팔·저난도 작업 데이터에 치우쳐 고난도·양팔·모바일 조작 일반화가 약함

해결

π0(파이‑제로) — VLM + Flow Matching Action Expert

PaliGemma 3 B VLM Backbone으로 웹 규모 시각·언어 지식을 상속.
Action Expert (300 M) 를 별도 expert로 추가해 50 Hz 연속 action chunk를 조건부 Flow Matching으로 생성하고 예측. 이를 통해 고주파, 다중모달 행동 분포를 정밀 모델링.
10 k h, 90 만번 시연, 7 개 플랫폼, 68 가지의 Task 크로스‑엠바디먼트 사전훈련 뒤, 과제 별 고품질 데이터로 짧게 Post‑training 하여 세탁물 접기·상자 조립 같은 장시간 다단계 작업까지 수행.

왜 효과적인가?

Patch‑to‑Token 단일 파이프라인으로 시각·언어·로봇 상태를 동일 어텐션 공간에서 조합해 지시 이해 ↔ 위치 추론을 동시에 수행.
Flow‑Matching Expert가 디퓨전 기반 멀티모달 연속 분포를 10‑스텝으로 빠르게 샘플 ‑‑> 50 Hz 고빈도 양팔 혹은 모바일 제어 가능.
크로스‑엠바디먼트 사전학습 + 소량 Post‑training 조합으로 데이터 희소·오류 복구·새 로봇 적응 문제를 모두 해소
- Cross-embodiment: 서로 다른 형태와 기능을 가진 로봇 환경

아키텍쳐

1. 입력 수집 & 토큰화 단계

센서 / 정보	전처리 모듈	아웃풋 토큰 (임베딩 dim = 2048)
RGB 이미지 2 ~ 3장 (224²)	ViT‑L encoders (PaliGemma와 동일) → 14×14 patch = 196 토큰/이미지	196 × n_img
언어 지시 ℓₜ	SentencePiece tokenizer → ID	≈ 15 토큰
Preprioception qₜ (7 ~ 14 joint angles)	Linear Proj(d_state→2048)	1 토큰
노이즈 액션 Aτ t (H = 50, τ∈[0,1])	MLP+τ 삽입 W3·swish(W2·concat(W1·aτ, ϕ(τ)))	50 토큰