RynnVLA-001: 使用人類演示改進機器人操作

概述
我們推出 RynnVLA-001,這是一種基於大規模影片生成預訓練的視覺-語言-動作模型。
- RynnVLA-001 在 **約 1200 萬個以自我為中心的操作影片** 上進行了預訓練。
- 我們將 **下一幀預測** 和 **下一動作預測** 統一到一個單一的 Transformer 中。
- 我們訓練了一個輕量級的 VAE,用於精確地 **將動作塊壓縮成動作嵌入**。
- RynnVLA-001 在 **實際任務成功率** 和 **指令遵循能力** 方面均優於 Pi-0 和 GR00T-N1.5。
開源連結
- 預訓練權重:https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base
- 微調程式碼:https://github.com/alibaba-damo-academy/RynnVLA-001
引言
得益於大規模資料集的可用性,在過去幾年中,語言模型、多模態模型、視覺感知模型和生成模型都取得了快速進展。相比之下,機器人模型的發展仍然有限,這主要是由於大規模機器人操作資料收集費時費力。
在這項工作中,我們試圖透過利用生成先驗來緩解這一挑戰。我們提出了 RynnVLA-001,一個簡單而有效的視覺-語言-動作 (VLA) 模型,它建立在預訓練的影片生成模型之上。RynnVLA-001 的關鍵在於隱式地將從以自我為中心的影片中學習到的人類演示操作技能轉移到機器人手臂上。RynnVLA-001 的概述如下圖所示。我們首先 **使用以自我為中心的操作影片訓練一個影片生成模型**。然後,在此基礎模型之上,我們將 **下一幀預測** 和 **下一動作預測** 統一到一個單一的 Transformer 中。
我們提出的 RynnVLA-001 能夠使機械臂透過準確遵循高階語言指令成功執行復雜的抓取-放置和長程任務。
方法
階段1:以自我為中心的影片生成模型
VLA 模型規模化面臨的挑戰在於,用於 VLA 訓練的配對資料有限。在這項工作中,我們將影片生成模型中學習到的先驗知識遷移到 VLA 模型中。在 VLA 模型設定中,動作是根據當前觀測和語言指令進行預測的。為了模擬 VLA 模型的推理場景,影片生成模型應該是一個影像到影片(I2V)模型,它根據給定的影像預測未來的幀。我們採用基於自迴歸 Transformer 的架構進行影片生成。此外,動作的預測依賴於以自我為中心的檢視的觀測。為此,我們精心整理了 **1193 萬個以自我為中心的人類操作影片** 用於訓練。這些影片包含第一人稱視角的人類操作,並側重於手部操作。此外,我們還從開源資料集中篩選了 **24.4 萬個機器人操作影片**。在此階段,我們只使用視覺觀測和語言指令,並特意省略任何相應的動作標籤(例如關節狀態或末端執行器位置),以迫使模型直接從畫素中學習對物理動力學的隱式理解。
階段2:用於壓縮機器人動作塊的 VAE
在 VLA 模型中,預測動作塊(短序列動作)而非單步動作已被證明是有益的。這種設計選擇是由兩個關鍵因素驅動的:1)避免重複預測:單動作預測可能導致每一步的視覺變化微不足道,從而使模型重複輸出相同的動作並陷入停滯。2)效率:一次預測多個動作可以減少計算開銷。為了實現塊級預測並保持動作平滑性,我們訓練了一個輕量級的 VAE,將每個機器人動作塊編碼成一個緊湊且連續的嵌入。VLA 模型只需預測一個單一的嵌入向量,該向量可以解碼成一系列連貫的動作。
階段3:視覺-語言-動作模型
在最後階段,我們透過整合基於 VAE 的動作表示,將預訓練的以自我為中心的影片生成模型微調為 VLA 模型。在此階段,我們將 **下一幀預測** 和 **下一動作預測** 統一到一個單一的 Transformer 中。模型被訓練用於預測動作嵌入和視覺令牌。由於動作嵌入是連續的,我們需要一個單獨的頭部來預測動作嵌入。動作預測頭部是一個輕量級的頭部,只有一個線性層。動作頭部的訓練透過 L1 損失進行監督。此外,模型還經過最佳化以預測未來的視覺觀測,這透過預測的視覺令牌與真實視覺令牌之間的交叉熵損失進行監督。
推理
在推理時,模型接收 RGB 觀測和語言指令作為輸入,並生成一個動作嵌入。該嵌入透過 VAE 解碼器重構為一系列低階機器人動作。然後,機器人執行這些動作。在執行預測的動作塊後,更新的觀測值反饋回模型,該過程重複進行,直到任務完成。值得注意的是,在推理過程中,我們僅預測動作嵌入並放棄未來視覺令牌的預測以提高效率,因為預測大量視覺令牌的計算成本很高。