SmolVLA: Lerobot 커뮤니티 데이터로 학습된 효율적인 Vision-Language-Action 모델

SmolVLA: Lerobot 커뮤니티 데이터로 학습된 효율적인 Vision-Language-Action 모델

이 글은 Hugging Face 블로그의 SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data를 한국어로 번역한 글입니다.

SmolVLA: Lerobot 커뮤니티 데이터로 학습된 효율적인 Vision-Language-Action 모델

🧭TL;DR

오늘 우리는 SmolVLA를 소개합니다. SmolVLA는 로보틱스를 위한 소형(450M) 오픈소스 Vision-Language-Action 모델로, 소비자용 하드웨어에서도 실행할 수 있습니다.

lerobot 태그 아래 공개된, 라이선스가 호환되는 오픈소스 커뮤니티 데이터셋만을 사용해 사전 학습되었습니다.
SmolVLA-450M은 시뮬레이션(LIBERO, Meta-World)과 실제 환경 과제(SO100, SO101)에서 훨씬 큰 VLA들과 ACT 같은 강력한 베이스라인을 뛰어넘는 성능을 보입니다.
30% 더 빠른 반응 속도와 2배의 작업 처리량을 위한 비동기 추론(asynchronous inference) 을 지원합니다.

Useful links:

SO-100/101 학습 및 평가에 사용된 하드웨어: https://github.com/TheRobotStudio/SO-ARM100
Base model https://huggingface.co/lerobot/smolvla_base
Paper: https://huggingface.co/papers/2506.01844

📚 Table of Contents

🧭 TL;DR
📖 Introduction
🤖 Meet SmolVLA
🚀 How to Use SmolVLA?
🧠 Method
📦 Community Datasets
- Improving Task Annotations
- Standardizing Camera Views
📊 Results
✅ Conclusion
📣 Call to Action

Introduction

지난 수년간 Transformer는 AI 분야에서 놀라운 발전을 이끌었습니다. 인간처럼 추론할 수 있는 언어 모델부터 이미지와 텍스트를 함께 이해하는 멀티모달 시스템까지 등장했지만, 실제 로보틱스에서는 발전 속도가 훨씬 더뎠습니다. 로봇은 여전히 다양한 물체, 환경, 작업 전반에 걸쳐 일반화하는 데 어려움을 겪고 있습니다. 이러한 제한적인 진전은 고품질·다양한 데이터의 부족과, 물리 세계에서 인간처럼 추론하고 행동할 수 있는 모델의 부재에서 비롯됩니다.

이 문제에 대응하기 위해 최근에는 Vision-Language-Action(VLA) 모델에 관심이 집중되고 있습니다. VLA는 지각(perception), 언어 이해, 행동 예측을 하나의 아키텍처로 통합하는 것을 목표로 합니다. 보통 VLA는 원시 시각 관측(raw visual observations)과 자연어 지시를 입력으로 받아, 그에 대응하는 로봇 행동을 출력합니다. 가능성은 크지만, 최근 VLA 분야의 많은 진전은 대규모 비공개 데이터셋으로 학습된 독점(proprietary) 모델에 의해 이루어졌고, 그 과정에서 고가의 하드웨어 구성과 대규모 엔지니어링 리소스가 필요한 경우가 많았습니다. 그 결과, 로보틱스 연구 커뮤니티 전반은 이러한 모델을 재현하거나 이를 바탕으로 연구를 확장하는 데 큰 장벽을 마주하고 있습니다.

SmolVLA는 공개 데이터셋만을 사용하고 소비자급 하드웨어에서 학습 가능한 오픈소스·소형·고효율 VLA 모델을 제공함으로써 이 격차를 줄이고자 합니다. 또한 모델 가중치뿐 아니라 매우 저렴한 오픈소스 하드웨어를 함께 활용할 수 있도록 함으로써, SmolVLA는 Vision-Language-Action 모델에 대한 접근성을 민주화하고 범용 로봇 에이전트(generalist robotic agents)를 향한 연구를 가속하는 것을 목표로 합니다.

Comparison of SmolVLA across task variations.
Figure 1: 다양한 작업 변형에서의 SmolVLA 비교. 왼쪽부터 (1) 비동기 방식의 큐브 픽-플레이스 카운팅, (2) 동기 방식의 큐브 픽-플레이스 카운팅, (3) perturbation 환경에서의 큐브 픽-플레이스 카운팅, (4) 실제 SO101 로봇에서 레고 블록 픽-앤-플레이스 작업에 대한 일반화 성능.

Meet SmolVLA!

SmolVLA-450M은 우리가 공개하는 오픈소스 VLA 모델로, 작지만 충분히 강력한 성능을 갖추고 있습니다. 주요 특징은 다음과 같습니다.

CPU에서도 실행 가능하고, 소비자용 단일 GPU에서 학습할 수 있으며, 심지어 MacBook에서도 구동할 수 있을 만큼 작습니다!
공개된 커뮤니티 공유 로보틱스 데이터로 학습되었습니다.
전체 학습 및 추론 레시피도 함께 공개합니다.
매우 저렴한 하드웨어(SO-100, SO-101, LeKiwi 등)에서 테스트 및 배포할 수 있습니다.

SmolVLA는 대형 언어 모델(LLM)의 학습 패러다임에서 영감을 받아, 일반적인 조작(manipulation) 데이터에 대한 사전학습을 거친 뒤 과제별(post-training) 후속 학습을 수행합니다. 아키텍처 측면에서는 Transformer와 flow-matching 디코더를 결합했으며, 다음과 같은 설계 선택을 통해 속도와 저지연 추론에 최적화했습니다.

비전 모델 레이어의 절반을 생략해서 추론 속도를 높이고 모델 크기를 감소
self-attention과 cross-attention 블록을 교차(interleave) 배치
시각 토큰 수를 줄여 연산량 감소
더 작은 사전학습 VLM 활용

SmolVLA는 3만 개 미만의 학습 에피소드만을 사용했습니다. 이는 다른 VLA 모델들이 사용하는 데이터 규모보다 한 자릿수(10배) 적은 수준이지만, 시뮬레이션과 실제 환경 모두에서 훨씬 더 큰 모델과 비교해도 동등하거나 더 뛰어난 성능을 보여줍니다.

실시간 로보틱스를 보다 쉽게 활용할 수 있도록, 우리는 비동기 추론 스택(asynchronous inference stack)을 도입했습니다. 이 기술은 로봇이 행동을 수행하는 과정과, 시각·청각 정보를 이해하는 과정을 분리합니다. 이러한 분리를 통해 로봇은 빠르게 변화하는 환경에서도 보다 신속하게 반응할 수 있습니다.

SmolVLA architecture.
Figure 2. SmolVLA는 여러 카메라에서 입력되는 RGB 이미지 시퀀스, 로봇의 현재 센서모터 상태, 그리고 자연어 지시를 입력으로 받습니다. VLM은 이를 문맥적 특징으로 인코딩하고, 이 특징이 action expert를 조건화하여 연속적인 행동 시퀀스를 생성합니다.

🚀 How to Use SmolVLA?

SmolVLA는 자체 데이터로 파인튜닝하든, 기존 로보틱스 스택에 연결하든 쉽게 사용하고 통합할 수 있도록 설계되었습니다.

Install

먼저 필요한 의존성을 설치합니다:

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

Finetune the pretrained model

사전학습된 450M 모델 smolvla_base를 lerobot 학습 프레임워크와 함께 사용합니다:

python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=20000  # 학습 예산의 10%

Train from scratch

사전학습된 체크포인트를 사용하지 않고, 아키텍처(사전학습된 VLM + action expert)부터 직접 학습하고 싶다면 다음과 같이 실행할 수 있습니다:

python lerobot/scripts/train.py \
  --policy.type=smolvla \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=200000

또한 SmolVLAPolicy를 직접 불러와 사용할 수도 있습니다:

from lerobot.common.policies.smolvla.modeling_smolvla import SmolVLAPolicy
policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")

Method

SmolVLA는 가볍지만 성능이 뛰어난 모델일 뿐만 아니라, 범용 로봇 정책을 학습하고 평가하기 위한 하나의 방법론이기도 합니다. 이 섹션에서는 SmolVLA의 모델 아키텍처와, 평가 과정에서 사용된 비동기 추론(asynchronous inference) 설정을 소개합니다. 이 설정은 더 높은 적응성과 빠른 복구 능력을 보여주는 것으로 확인되었습니다.

SmolVLA는 두 가지 핵심 구성 요소로 이루어져 있습니다. 하나는 멀티모달 입력을 처리하는 Vision-Language Model (VLM)이고, 다른 하나는 로봇 제어 명령을 출력하는 action expert입니다. 아래에서는 SmolVLA 아키텍처의 주요 구성 요소와 비동기 추론에 대한 세부 내용을 설명합니다. 더 자세한 내용은 기술 리포트를 참고하세요.

Main Architecture

Vision-Language Model (VLM)

Vision-Language Model (VLM) SmolVLA는 VLM 백본으로 SmolVLM2를 사용합니다. 이 모델은 다중 이미지 입력에 최적화되어 있으며, SigLIP 비전 인코더와 SmolLM2 언어 디코더로 구성됩니다.

비전 인코더를 통해 이미지 토큰(image tokens)을 추출합니다.
자연어 지시(language instructions)는 토큰화되어 디코더에 직접 입력됩니다.
센서모터 상태(sensorimotor states)는 선형 레이어를 통해 단일 토큰으로 투영되어, 언어 모델의 토큰 차원과 정렬됩니다.

디코더 레이어는 이미지, 언어, 상태 토큰을 이어붙인(concatenated) 입력을 처리합니다. 이렇게 생성된 특징은 이후 action expert로 전달됩니다.

Action Expert: Flow Matching Transformer

SmolVLA의 action expert는 약 1억(100M) 파라미터 규모의 소형 Transformer로, VLM의 출력에 조건화되어 미래 로봇 행동 시퀀스, 즉 action chunk를 생성합니다. 이 모듈은 flow matching 목적 함수를 사용해 학습되며, 노이즈가 섞인 샘플을 정답(ground truth)으로 되돌리도록 모델을 학습시킵니다. 반면, 토큰화와 같은 이산(discrete) 행동 표현은 표현력은 뛰어나지만, 보통 자기회귀(autoregressive) 디코딩을 필요로 해 추론 시 느리고 비효율적인 경우가 많습니다. 이에 비해 flow matching은 연속적인 행동을 직접, 비자기회귀적으로 예측할 수 있어, 높은 정밀도의 실시간 제어를 가능하게 합니다.

보다 직관적으로 설명하면, 학습 과정에서 로봇의 실제 행동 시퀀스에 임의의 노이즈를 추가한 뒤, 모델이 이를 올바른 궤적으로 되돌리는 “보정 벡터(correction vector)”를 예측하도록 합니다. 이 과정은 행동 공간 전반에 걸쳐 매끄러운 벡터 필드를 형성하며, 모델이 정확하고 안정적인 제어 정책을 학습하는 데 도움을 줍니다.

이러한 접근은 교차 배치된(interleaved) 어텐션 블록을 사용하는 Transformer 아키텍처(figure 2 참고)로 구현되었으며, 배포 효율성을 고려해 hidden size를 VLM의 75% 수준으로 줄여 모델을 경량화했습니다.

Design Choices for Efficiency and Robustness

최근의 VLA 시스템들—예를 들어 Pi0, GR00T, Diffusion Policy—에서는 vision-language 모델과 행동 예측 모듈을 결합하는 설계가 일반적입니다. 하지만 우리는 그중에서도 강건성과 성능을 크게 향상시키는 몇 가지 아키텍처 선택지를 확인했습니다. SmolVLA에서는 다음의 세 가지 핵심 기법을 적용합니다: 시각 토큰 수 축소, VLM 상위 레이어 스킵, 그리고 action expert 내부에서의 cross-attention과 self-attention 레이어 교차 배치입니다.

Visual Token Reduction

고해상도 이미지는 지각 성능을 높여 주지만, 추론 속도를 크게 저하시킬 수 있습니다. 이러한 균형을 맞추기 위해 SmolVLA는 학습과 추론 모두에서 프레임당 시각 토큰 수를 64개로 제한합니다. 예를 들어 512×512 이미지는 효율적인 셔플링 기법인 PixelShuffle을 사용해, 기존의 1024 토큰 대신 64 토큰으로 압축됩니다. 비록 기본 Vision-Language Model(VLM)은 더 넓은 시각적 커버리지를 위해 이미지 타일링 방식으로 사전학습되었지만, SmolVLA는 실제 추론 시 전역 이미지(global image)만 사용하여 모델을 가볍고 빠르게 유지합니다.

Faster Inference via Layer Skipping

항상 VLM의 최종 레이어에 의존하는 방식은 연산 비용이 크고, 경우에 따라 최적의 선택이 아닐 수 있습니다. 이에 따라 SmolVLA는 중간 레이어(intermediate layers)의 특징(feature)을 활용합니다. 기존 연구에 따르면, 초기 또는 중간 레이어가 다운스트림 작업에 더 유용한 표현을 제공하는 경우도 많습니다. SmolVLA에서는 학습 시 action expert가 주의(attend)할 VLM 특징을 설정 가능한 N번째 레이어까지로 제한하며, 기본값은 전체 레이어의 절반입니다. 이를 통해 VLM과 action expert 모두의 연산 비용을 절반으로 줄일 수 있으며, 성능 저하를 최소화한 상태에서 추론 속도를 크게 향상시킵니다.

Interleaved Cross and Self-Attention

action expert 내부에서는 어텐션 레이어가 다음 두 가지 형태로 번갈아 배치됩니다.

Cross-attention (CA): action 토큰이 VLM에서 생성된 특징에 어텐션을 수행
Self-attention (SA): action 토큰끼리 서로 어텐션을 수행하며, 인과적(causal) 구조로 과거 정보만을 참조

우리는 이러한 교차(interleaved) 설계가 전체 어텐션 블록(full attention blocks)을 사용하는 방식보다 더 가볍고 효과적임을 확인했습니다. CA만 또는 SA만 사용하는 모델은 각각 행동의 부드러움(smoothness)이나 지각·지시와의 정합성(grounding) 중 하나를 희생하는 경향이 있습니다.

SmolVLA에서 CA는 행동이 시각 정보와 자연어 지시에 잘 조건화되도록 보장하며, SA는 시간적 부드러움(temporal smoothness)을 향상시킵니다. 이는 특히 실제 로봇 제어 환경에서 매우 중요한 요소로, 예측이 흔들리거나(jittery) 불안정할 경우 위험하거나 비안정적인 동작으로 이어질 수 있습니다.

Asynchronous Inference

Figure 3. 비동기 추론. 비동기 추론 스택의 개념도입니다. 정책은 GPU가 장착된 원격 서버에서 실행될 수도 있습니다.

현대의 시각-운동(visuomotor) 정책은 action chunk—즉, 실행할 행동들의 시퀀스—를 출력합니다. 이를 관리하는 방식에는 두 가지가 있습니다.

동기(synchronous, sync): 로봇이 하나의 chunk를 실행한 뒤, 다음 chunk가 계산될 때까지 멈춥니다. 구현은 단순하지만, 이 동안 로봇은 새로운 입력에 반응할 수 없는 지연이 발생합니다.
비동기(asynchronous, async): 현재 chunk를 실행하는 동안에도 로봇은 최신 관측을 Policy Server(GPU에서 호스팅될 수 있음)로 전송해 다음 chunk를 미리 계산합니다. 이를 통해 유휴 시간을 없애고 반응성을 크게 향상시킬 수 있습니다.

우리의 비동기(async) 스택은 행동 실행과 chunk 예측을 분리(decouple)함으로써, 더 높은 적응성과 함께 런타임에서 실행 지연이 전혀 없는 동작을 가능하게 합니다. 이는 다음과 같은 핵심 메커니즘에 기반합니다.

1. Early trigger: 큐 길이가 임계값(예: 70%) 아래로 떨어지면, 관측을 Policy Server로 보내 새로운 action chunk 생성을 요청합니다.
2. Decoupled threads: 제어 루프는 계속 실행되고, 추론은 병렬로(논블로킹 방식으로) 수행됩니다.
3. Chunk fusion: 연속된 chunk 간에 겹치는 행동을 단순한 병합 규칙으로 이어 붙여, 지터(jitter)를 방지합니다.

모델을 변경하지 않고도 더 높은 적응성과 향상된 성능을 보장한다는 점에서, 우리는 비동기 추론을 공개하게 되어 매우 기대하고 있습니다. 요약하면, 비동기 추론은 행동 실행과 원격 예측을 겹쳐 수행함으로써 로봇이 항상 높은 반응성을 유지하도록 합니다.

Community Datasets

비전과 언어 모델이 LAION, ImageNet, Common Crawl과 같은 웹 스케일 데이터셋을 기반으로 성장해 온 것과 달리, 로보틱스에는 이에 상응하는 자원이 부족합니다. 이른바 “로봇의 인터넷(Internet of robots)”은 아직 존재하지 않습니다. 대신 데이터는 로봇 종류, 센서, 제어 방식, 포맷에 따라 파편화되어 서로 단절된 “데이터 섬(data islands)”을 형성하고 있습니다. 우리는 이전 글에서 이러한 파편화를 개방적이고 협업적인 노력을 통해 어떻게 해소할 수 있는지를 살펴본 바 있습니다. ImageNet이 크고 다양한 벤치마크를 제공함으로써 컴퓨터 비전 분야의 도약을 이끌었듯이, 우리는 커뮤니티 주도 로보틱스 데이터셋이 범용 로봇 정책을 위한 동일한 기초 역할을 할 수 있다고 믿습니다.

SmolVLA는 이러한 비전을 향한 첫걸음입니다. SmolVLA는 실제 세계의 다양성을 반영하도록 설계된, 공개되고 커뮤니티가 기여한 데이터셋을 엄선해 사전학습되었습니다. 데이터셋의 크기만을 단순히 키우는 대신, 전이(transfer)와 일반화(generalization)를 촉진하는 다양성—즉, 다양한 행동 유형, 카메라 시점, 그리고 서로 다른 로봇 형태(embodiment)—에 초점을 맞추었습니다.

SmolVLA에 사용된 모든 학습 데이터는 Hugging Face Hub에서 lerobot 태그 아래 공유된 로보틱스 데이터셋인 LeRobot Community Datasets에서 비롯됩니다. 연구실부터 거실에 이르기까지 다양한 환경에서 수집된 이 데이터셋들은, 실제 로봇 데이터를 대규모로 확장하려는 개방적이고 분산된 노력을 대표합니다.

A glimpse of the community dataset.
Figure 4. 커뮤니티 데이터셋의 한 장면. 시각화를 제작해준 Ville Kuosmanen에게 특별한 감사를 전합니다. 학술 벤치마크와 달리, 커뮤니티 데이터셋은 다양한 조명 조건, 완벽하지 않은 시연, 비정형적인 물체, 그리고 이질적인 제어 방식 등 ‘지저분하지만 현실적인’ 상호작용을 자연스럽게 담고 있습니다. 이러한 다양성은 강건하고 범용적인 표현을 학습하는 데 매우 유용합니다.

우리는 Alexandre Chapin과 Ville Kuosmanen이 제작한 커스텀 필터링 도구를 사용해, 프레임 수, 시각적 품질, 작업 커버리지를 기준으로 데이터셋을 선별했습니다. 이후 세심한 수작업 검토 과정을 거쳐(특별히 Marina Barannikov에게 감사를 전합니다), SO100 로봇 팔에 초점을 맞춘 487개의 고품질 데이터셋을 큐레이션했으며, 이를 30 FPS로 표준화했습니다. 그 결과 약 1천만 프레임 규모의 데이터가 구축되었는데, 이는 다른 인기 벤치마크 데이터셋에 비해 최소 한 자릿수(10배) 이상 작은 규모이지만, 훨씬 더 높은 다양성을 갖습니다.

Improving Task Annotations

커뮤니티 데이터셋 전반에서 공통적으로 나타난 문제는 작업 설명이 노이즈가 많거나 누락되어 있다는 점이었습니다. 많은 에피소드에 주석이 없거나, “task desc”, “Move”, “Pick”과 같은 모호한 라벨만 포함된 경우가 많았습니다. 이러한 품질 문제를 개선하고 데이터셋 전반의 텍스트 입력을 표준화하기 위해, 우리는 Qwen2.5-VL-3B-Instruct를 활용해 간결하고 행동 중심적인 작업 설명을 생성했습니다.

샘플 프레임과 기존 라벨을 입력으로 제공한 뒤, 30자 이내이면서 동사로 시작하는(예: “Pick”, “Place”, “Open”) 지시문으로 작업 설명을 다시 작성하도록 모델을 프롬프트했습니다.

사용한 프롬프트는 다음과 같습니다:

Here is a current task description: {current_task}. Generate a very short, clear, and complete one-sentence describing the action performed by the robot arm (max 30 characters). Do not include unnecessary words.
Be concise.
Here are some examples: Pick up the cube and place it in the box, open the drawer and so on.
Start directly with an action verb like “Pick”, “Place”, “Open”, etc.
Similar to the provided examples, what is the main action done by the robot arm?

Standardizing Camera Views

또 다른 과제는 카메라 이름이 일관되지 않다는 것입니다. 일부 데이터셋은 top이나 wrist.right처럼 명확한 이름을 사용한 반면, images.laptop과 같이 의미가 상황에 따라 달라질 수 있는 모호한 라벨을 사용하는 경우도 있었습니다. 이를 해결하기 위해 우리는 데이터셋을 수작업으로 검토하며 각 카메라 뷰를 다음과 같은 표준 스킴으로 매핑했습니다. OBS_IMAGE_1: 상단(Top-down) 뷰 OBS_IMAGE_2: 손목(Wrist-mounted) 뷰 OBS_IMAGE_3+: 추가 시점

또한 커뮤니티 데이터셋 사전학습과 멀티태스크 파인튜닝의 기여도를 분리해 분석했습니다. LeRobot 커뮤니티 데이터셋으로 사전학습을 수행하지 않았을 때, SmolVLA는 SO100 환경에서 51.7%의 성공률을 보였습니다. 그러나 커뮤니티 수집 데이터로 사전학습을 수행한 후에는 성능이 78.3%로 상승했으며, 이는 절대 기준 +26.6%의 향상에 해당합니다. 여기에 멀티태스크 파인튜닝을 적용하면 성능이 추가로 개선되며, 적은 데이터 환경에서도 강력한 작업 전이 능력을 보여줍니다.

Table 1. 커뮤니티 데이터셋 사전학습 및 멀티태스크 파인튜닝의 효과.

Results

우리는 SmolVLA의 일반화 성능, 효율성, 강건성을 평가하기 위해 시뮬레이션과 실제 환경 벤치마크 전반에서 실험을 수행했습니다. 모델 규모가 작음에도 불구하고, SmolVLA는 더 대규모 로보틱스 데이터로 사전학습된 정책이나 훨씬 큰 모델들과 비교해도 일관되게 더 뛰어나거나 동등한 성능을 보여줍니다.

SmolVLA Performance on Simulation Benchmarks.

Table 2. 시뮬레이션 벤치마크에서의 SmolVLA 성능.

SmolVLA vs Baselines on Real-World Tasks (SO100).

Table 3. 실제 과제(SO100)에서 SmolVLA와 베이스라인 비교.

실제 환경에서는 SmolVLA를 SO100과 SO101, 두 가지로 구성된 다양한 작업 스위트(suite)에서 평가합니다. 이 작업들은 픽-앤-플레이스, 쌓기(stacking), 분류(sorting)를 포함하며, 분포 내(in-distribution) 및 분포 외(out-of-distribution) 객체 구성 모두를 다룹니다. SO101 환경에서도 SmolVLA는 뛰어난 일반화 성능을 보여줍니다.

Generalization of SmolVLA to New Embodiment (SO101) vs ACT..

Table 4. 새로운 로봇 형태(SO101)에 대한 SmolVLA의 일반화 성능 vs ACT.

마지막으로, SmolVLA를 동기(synchronous) 및 비동기(asynchronous) 추론 모드에서 평가했습니다. 비동기 추론은 행동 실행과 모델 추론을 분리(decouple)함으로써, 로봇이 움직이는 동안에도 정책이 즉각적으로 반응할 수 있도록 합니다.

두 모드 모두 유사한 작업 성공률(≈78%)을 보이지만, 비동기 추론은:
- 작업을 약 30% 더 빠르게 완료합니다 (9.7초 vs. 13.75초)
- 고정된 시간 설정에서 2배 더 많은 작업 완료를 가능하게 합니다 (큐브 19개 vs. 9개)

이는 특히 물체가 이동하거나 외부 교란이 발생하는 동적 환경에서, 실제 로봇이 더 민첩하고 안정적으로 동작하도록 만들어 줍니다.

Asynchronous vs. Synchronous Inference in Real-World Tasks.

Figure 5. 실제 환경 과제에서의 비동기 vs 동기 추론 비교. (a) 작업 성공률(%), (b) 평균 완료 시간(초), (c) 고정 시간 창 내 완료된 작업 수.

Conclusion

SmolVLA는 개방적이고, 효율적이며, 재현 가능한 로보틱스 파운데이션 모델을 구축하기 위한 우리의 기여입니다. 작은 모델 크기에도 불구하고, SmolVLA는 다양한 실제 환경 및 시뮬레이션 과제에서 더 크고 독점적인 모델들과 동등하거나 이를 능가하는 성능을 보여줍니다. 커뮤니티가 기여한 데이터셋과 저렴한 하드웨어에만 의존함으로써, SmolVLA는 연구자, 교육자, 그리고 취미 개발자에 이르기까지 모두의 진입 장벽을 낮춥니다. 하지만 이는 시작에 불과합니다. SmolVLA는 단순한 하나의 모델이 아니라, 확장 가능하고 협업적인 로보틱스를 향한 오픈소스 움직임의 일부입니다.

Call to Action:

🔧 직접 사용해보세요! SmolVLA를 여러분의 데이터로 파인튜닝하고, 저렴한 하드웨어에 배포하거나, 현재 사용 중인 스택과 비교 평가한 뒤 Twitter/LinkedIn에 공유해 주세요.
🤖 데이터셋을 업로드하세요! 로봇이 있나요? lerobot 포맷을 사용해 데이터를 수집하고 공유해 주세요. SmolVLA를 구동하는 커뮤니티 데이터셋 확장에 기여할 수 있습니다.
💬 블로그 토론에 참여하세요. 아래 토론에서 질문, 아이디어, 피드백을 남겨 주세요. 통합, 학습, 배포와 관련해 기꺼이 도와드리겠습니다.
📊 기여하세요. 데이터셋을 개선하고, 이슈를 보고하거나, 새로운 아이디어를 제안해 주세요. 모든 기여는 큰 도움이 됩니다.
🌍 널리 알려주세요. 효율적인 실시간 로봇 정책에 관심 있는 연구자, 개발자, 교육자들과 SmolVLA를 공유해 주세요.
📫 소식 받기: LeRobot 조직과 Discord 서버를 팔로우해 업데이트, 튜토리얼, 신규 릴리스를 받아보세요.

함께라면, 실세계 로보틱스를 더 유능하고, 더 저렴하며, 더 개방적으로 만들어갈 수 있습니다. ✨

22 Dec 2025

« HuggingFace 번역 MCP 서버 사용법

Hugging Face 번역 MCP 서버 총정리 »

SmolVLA: Lerobot 커뮤니티 데이터로 학습된 효율적인 Vision-Language-Action 모델

SmolVLA: Lerobot 커뮤니티 데이터로 학습된 효율적인 Vision-Language-Action 모델

🧭TL;DR

📚 Table of Contents

Introduction

Meet SmolVLA!

🚀 How to Use SmolVLA?

Install

Finetune the pretrained model

Train from scratch

Method

Main Architecture

Vision-Language Model (VLM)

Action Expert: Flow Matching Transformer

Design Choices for Efficiency and Robustness

Visual Token Reduction

Faster Inference via Layer Skipping

Interleaved Cross and Self-Attention

Asynchronous Inference

Community Datasets

Improving Task Annotations

Standardizing Camera Views

Results

Conclusion

Call to Action:

열린 프로젝트