LeRobot 社群資料集:機器人領域的“ImageNet”——何時以及如何實現?
🧭 內容摘要 — 為何寫這篇博文?
在這篇文章中,我們將:
- 認識到社群貢獻的 LeRobot 資料集日益增長的影響力
- 強調當前機器人資料收集與管理中存在的挑戰
- 分享旨在最大化這一集體努力影響力的實用步驟和最佳實踐
我們的目標是將泛化問題視為一個*資料問題*,並展示構建一個開放、多樣化的“機器人學 ImageNet”不僅是可能的,而且已經正在發生。
引言
視覺-語言-動作 (Vision-Language-Action, VLA) 模型的最新進展使得機器人能夠執行廣泛的任務——從“抓住方塊”這樣的簡單指令,到摺疊衣物或清理桌子等更復雜的活動。這些模型旨在實現泛化:即在新的環境、面對未見過的物體以及在不同條件下執行任務的能力。
“機器人學最大的挑戰不是靈活性,而是跨越物理、視覺和語義層面的泛化能力。”
— *Physical Intelligence*
機器人必須*“弄清楚如何在一個新的環境或面對新的物體時正確地完成哪怕一個簡單的任務”*,這既需要強大的技能,也需要對世界有常識性的理解。然而,進展往往受限於為這類機器人系統提供多樣化資料的可用性。
“泛化必須在多個層面上發生。在低層面上,機器人必須理解如何拿起一把勺子(握住手柄)或一個盤子(抓住邊緣),即使它以前從未見過這些特定的勺子或盤子,即使它們被放在一堆髒盤子裡。在更高的層面上,機器人必須理解每個任務的語義——衣服和鞋子應該放在哪裡(理想情況是洗衣籃或衣櫃裡,而不是床上),以及用什麼樣的工具來擦拭溢位物。這種泛化既需要強大的物理技能,也需要對環境有常識性的理解,這樣機器人才能同時在物理、視覺到語義等多個層面上進行泛化。由於這類機器人系統可用的多樣化資料有限,這使得任務變得更加困難。”
— *Physical Intelligence*
從模型到資料:轉變視角
簡而言之,通用策略的核心在於一個簡單的理念:在異構資料集上進行聯合訓練。透過讓 VLA 模型接觸各種環境、任務和機器人形態,我們不僅可以教模型如何行動,還可以教它們*為什麼*要這麼做——如何解讀場景、理解目標以及在不同情境下調整技能。
💡 “泛化不僅僅是模型的屬性,它更是一種資料現象。”
它源於訓練資料的多樣性、質量和抽象層次。
這就引出了一個根本性的問題
基於當前的資料集,我們能期望的泛化能力上限是多少?
如果一個機器人在訓練期間從未遇到過任何類似的任務,它能否有意義地響應一個全新的指令,比如“佈置一個驚喜生日派對”?尤其是在大多數資料集都是在學術實驗室中,由少數人在嚴格控制的設定下收集的情況下?
我們將泛化問題置於一個**以資料為中心的視角**:將其視為從資料中抽象出更廣泛模式的過程——本質上是*“縮小視角”*以揭示與任務無關的結構和原則。這種視角的轉變強調了**資料集多樣性**在驅動泛化中的作用,而不僅僅是模型架構本身。
為什麼機器人學領域還沒有迎來它的“ImageNet 時刻”?
到目前為止,大多數機器人資料集都來自結構化的學術環境。即使我們擴充套件到數百萬個演示資料,也常常會有一個數據集占主導地位,從而限制了多樣性。與 ImageNet 不同——它聚合了網際網路規模的資料,更全面地捕捉了真實世界——機器人學領域缺乏一個具有可比多樣性的、由社群驅動的基準。
這主要是因為為機器人學收集資料需要**實體硬體和巨大的努力**。
構建 LeRobot 社群
正因如此,在 LeRobot,我們正努力讓機器人資料收集變得更加觸手可及——無論是在家、在學校,還是在任何地方。我們正在:
- 簡化錄製流程
- 簡化上傳到 Hugging Face Hub 的流程,以促進社群分享
- 降低硬體成本
我們已經看到了成果:Hugging Face Hub 上社群貢獻的資料集數量正在迅速增長。

Hugging Face Hub 上 lerobot 資料集隨時間的增長情況。
如果按機器人型別對上傳的資料集進行細分,我們可以看到大部分貢獻都集中在 So100 和 Koch 上,這使得機械臂和操作任務成為當前 LeRobot 資料集領域的主要焦點。然而,重要的是要記住,其潛力遠不止於此。自動駕駛汽車、輔助機器人和移動導航等領域同樣可以從共享資料中受益。這一勢頭讓我們更接近一個未來:資料集反映的是全球性的努力,而不僅僅是單個實驗室或機構的貢獻。

按機器人型別劃分的 lerobot 資料集分佈情況。
以下是幾個傑出的社群貢獻資料集,展示了機器人技術可以多麼多樣化和富有想象力
lirislab/close_top_drawer_teabox
:使用家用抽屜進行精確操作Chojins/chess_game_001_blue_stereo
:透過立體攝像頭設定捕捉的完整象棋比賽pierfabre/chicken
:沒錯——一個機器人與包括一隻雞在內的彩色動物模型互動 🐔
在 Hugging Face Hub 上透過 LeRobot
標籤探索更多創意資料集,並在 LeRobot 資料集視覺化工具中進行互動式檢視。
負責任地擴充套件
隨著機器人資料收集的日益大眾化,**資料管理成為下一個挑戰**。雖然這些資料集仍然是在受限的環境中收集的,但它們是邁向經濟實惠、通用機器人策略的關鍵一步。不是每個人都能接觸到昂貴的硬體——但透過**共享基礎設施和開放協作**,我們可以構建出遠為宏大的成果。
🧠 “泛化能力不是在實驗室裡解決的——它是由世界教會的。”
我們的資料越多樣化,我們的模型就會越強大。
更好的資料 = 更好的模型
為什麼資料質量如此重要?低質量的資料會導致下游效能不佳、輸出帶偏見以及模型無法泛化。因此,**高效和高質量的資料收集**在推進通用機器人策略中扮演著至關重要的角色。
雖然視覺和語言領域的基礎模型得益於海量的網路規模資料集,但機器人領域缺乏一個“機器人網際網路”——一個龐大、多樣的真實世界互動語料庫。相反,機器人資料分散在不同的機器人形態、感測器配置和控制模式中,形成了孤立的*資料孤島*。
為了克服這一點,像 Gr00t 這樣的最新方法將訓練資料組織成一個**金字塔**結構,其中:
- 大規模的網路和影片資料構成**基礎**
- 合成數據增加**模擬的多樣性**
- 位於**頂層**的真實世界機器人互動資料將模型與物理執行相結合
在這個框架內,高效的真實世界資料收集是不可或缺的——它將學習到的行為錨定在實際的機器人硬體上,並**彌合了模擬到現實的差距**,最終提升了機器人基礎模型的泛化能力、適應性和效能。
透過擴大**真實世界資料集的規模和多樣性**,我們減少了異構資料來源之間的碎片化。當資料集在環境、機器人形態或任務分佈方面不連貫時,模型很難在不同領域之間遷移知識。
🔗 真實世界的資料扮演著連線組織的角色——它將抽象的先驗知識與具體的行動結合起來,使模型能夠構建更連貫、更具可遷移性的表徵。
因此,增加真實機器人互動的比例不僅僅是增強真實感——它在**結構上加強**了金字塔所有層次之間的聯絡,從而產生更穩健、更強大的策略。

機器人基礎模型訓練的資料金字塔。改編自 Gr00t (Yang et al., 2025)。資料量從下到上遞減,而機器人形態的特異性則遞增。
當前社群資料集的挑戰
在 LeRobot,我們已經開始開發一個自動化的資料管理流程來後處理社群資料集。在後處理階段,我們發現了一些可以改進的方面,以進一步提高資料集質量,並促進未來更有效的資料管理:
1. 任務標註不完整或不一致
許多資料集缺少任務描述,或者描述細節不足、含糊不清。語義是當前認知能力的核心,這意味著理解任務的上下文和具體細節對機器人的效能至關重要。詳細的表述不僅能確保機器人準確理解期望,還能為認知系統提供更廣泛的知識和詞彙。模糊不清的描述可能導致錯誤的解讀,進而導致錯誤的行動。
任務指令可能:
- 為空
- 過短(例如“Hold”、“Up”)
- 沒有任何具體含義(例如“task desc”、“desc”)
子任務級別的標註通常缺失,這使得對複雜任務層級的建模變得困難。
雖然這可以用視覺語言模型(VLM)來處理,但最好還是由資料集的作者提供任務標註。
2. 特徵對映不一致
像 images.laptop
這樣的特徵標註含糊不清
- 有時它是第三人稱視角
- 有時它更像是夾持器(手腕)攝像頭
手動將資料集特徵對映到標準名稱既耗時又容易出錯。
我們或許可以使用視覺語言模型(VLM)或計算機視覺模型來自動推斷特徵型別以對攝像頭視角進行分類。然而,在收集資料時就注意這一點有助於得到更乾淨的資料集。
3. 低質量或不完整的片段
一些資料集包含:
- 只有 1 幀或極少幀的片段
- 手動刪除的資料檔案(例如,刪除了
.parquet
檔案但未重新建立索引),破壞了序列的連續性。
4. 動作/狀態維度不一致
不同的資料集使用不同的動作或狀態維度,即使是針對同一款機器人(例如 so100
)。
一些資料集在動作/狀態格式上存在不一致性。
何為優秀的資料集?
既然我們已經知道建立高質量的資料集對於訓練可靠且具有泛化能力的機器人策略至關重要,我們在此列出了一份最佳實踐清單,以幫助您收集有效的資料。
影像質量
- ✅ 優先使用**兩個攝像頭視角**
- ✅ 確保**影片拍攝穩定**(無抖動)
- ✅ 保持**中性、穩定的光照**(避免過黃或過藍的色調)
- ✅ 確保**曝光一致**和**對焦清晰**
- ✅ **主控臂不應出現在**畫面中
- ✅ **唯一移動的物體**應為從動臂和被操作的物品(避免出現人的肢體/身體)
- ✅ 使用**靜態、不分散注意力的背景**,或應用受控的變化
- ✅ 以**高解析度**錄製(至少 480x640 / 720p)
元資料與錄製協議
- ✅ 在元資料中選擇**正確的機器人型別**。如果您使用的是自定義機器人,且未在官方 LeRobot 配置登錄檔中列出,
我們建議您檢視 LeRobot Hub 上現有資料集中類似機器人的命名方式,以確保一致性。 - ✅ 以大約**每秒 30 幀 (FPS)** 的速率錄製影片
- ✅ 如果**刪除片段**,請確保**相應地更新元資料檔案**(我們將提供適當的工具來編輯資料集)
特徵命名規範
為所有攝像頭視角和觀測資料使用一致且易於理解的命名方案
格式
<modality>.<location>
示例
images.top
images.front
images.left
images.right
避免使用裝置特定的名稱
- ❌
images.laptop
- ❌
images.phone
對於手腕安裝的攝像頭,請指明方向
images.wrist.left
images.wrist.right
images.wrist.top
images.wrist.bottom
一致的命名提高了清晰度,並幫助下游模型更好地解釋空間配置和多視角輸入。
任務標註
- ✅ 使用
task
欄位**清晰地描述機器人的目標**- 示例:
拿起黃色的樂高積木並放入盒子中
- 示例:
- ✅ 保持任務描述**簡潔**(**25-50 個字元**之間)
- ✅ 避免使用模糊或通用的名稱,如
task1
、demo2
等。
下面,我們提供了一份清單,作為錄製資料集的指南,列出了資料收集過程中需要注意的關鍵點。

圖 4: 資料集錄制清單 – 確保一致和高質量的真實世界資料收集的分步指南。
你能如何提供幫助?
下一代通用機器人不會由單一個人或實驗室構建——它們將由我們所有人共同構建。無論你是學生、研究員,還是僅僅對機器人感到好奇,以下是你參與的方式:
- 🎥 錄製你自己的資料集 — 使用 LeRobot 工具從你的機器人上捕捉並上傳高質量的資料集。
- 🧠 提高資料集質量 — 遵循我們的清單,整理你的錄製內容,並幫助制定機器人資料的新標準。
- 📦 為 Hub 做出貢獻 — 上傳資料集,分享示例,並探索他人的成果。
- 💬 加入對話 — 在我們的 LeRobot Discord 伺服器上提供反饋、請求功能或幫助塑造發展路線圖。
- 🌍 壯大這場運動 — 將 LeRobot 介紹給你的俱樂部、課堂或實驗室。更多的貢獻者 = 更好的泛化能力。
開始錄製,開始貢獻——因為通用機器人的未來取決於我們今天構建的資料。