문제

  1. 기존 로봇 정책은 로봇, 과제마다 처음부터 학습해야 해서 데이터, 시간 비용이 매우 크고 일반화가 약함
  2. 최근 등장한 Vision‑Language‑Action(VLA) 모델(RT‑2‑X)은 강력하지만 폐쇄적이고 사이즈가 초대형(55 B 파라미터) 이라 연구·실전 적용, 미세조정 비용이 높음
  3. 공개 VLA가 없으니 효율적인 파인튜닝 방법론 자체가 부재
    1. 비전-언어-액션(VLA) 모델: 인터넷의 대규모 데이터로 사전 학습된 VLM(예: 대형 언어-이미지 모델)을 활용해 로봇이 시각 및 언어 정보를 이해하고, 이를 바탕으로 물리적 행동을 결정하도록 합니다. VLM을 통해 로봇은 단순히 픽업(pick-up) 동작에 그치지 않고, 물체의 의미나 맥락(예: "접은 옷을 다른 옷 위에 차곡차곡 쌓기")을 이해할 수 있음.

해결 방법

  1. 완전 공개 7 B‑파라미터 VLA(Prismatic‑7B) → 누구나 다운로드·훈련·배포 가능.
  2. 대규모 실로봇 시연 970 k(Open X‑Embodiment)으로 파인튜닝해 RT‑2‑X 보다 16.5 %p 높은 성공률을 1/8 규모로 달성.
  3. 액션을 LLM 토큰으로 직접 예측해 아키텍처를 단순화 + LLM 학습 인프라 재활용.
  4. 파인튜닝, 양자화, LoRA 실험으로 실제 환경의 GPU에서도 수 시간 내 적응 가능함을 증명.

왜 효과적인가?

  1. 파라미터 대부분을 LLM에 집중해 “스케일=성능” 곡선을 따르면서, 비전·프로젝터는 얕아 추론 속도 유지.
  2. 듀얼 인코더가 공간 정보(DINOv2)와 의미 정보(SigLIP)를 모두 제공해 언어 ↔ 시각 정합이 우수.
  3. 액션=토큰 설계로 기존 VLM 인프라·최적화 기법(FlashAttention, LoRA, QLoRA 등)을 그대로 활용 가능.
  4. Open X 데이터 970 k로 학습해 로봇·작업·환경 다양성 확보 → 광범위한 제너럴리스트 성능.

아키텍쳐

image.png