Open-R1:DeepSeek-R1 的完全開放復現
什麼是 DeepSeek-R1?
如果你曾為一道棘手的數學題而苦惱,你就會明白多花點時間仔細思考和解決問題是多麼有用。OpenAI 的 o1 模型表明,當 LLM 被訓練做同樣的事情——透過在推理過程中使用更多計算資源——它們在解決數學、編碼和邏輯等推理任務方面會顯著提高。
然而,OpenAI 推理模型背後的秘訣一直是一個嚴守的秘密。直到上週,DeepSeek 釋出了他們的 DeepSeek-R1 模型,迅速引爆了網際網路(以及股市!)。
除了表現與 o1 相當甚至更好之外,DeepSeek-R1 的釋出還附帶了一份詳細的技術報告,概述了其訓練方法中的關鍵步驟。這種方法包含了多項創新,其中最值得注意的是純粹的強化學習應用於教基礎語言模型如何在沒有**任何**人工監督的情況下進行推理。如下圖所示,如果您擁有一個功能強大的基礎模型和高質量的資料混合,構建一個強大的推理模型現在變得非常簡單

然而,DeepSeek-R1 的釋出留下了幾個懸而未決的問題:
- 資料收集:特定於推理的資料集是如何整理的?
- 模型訓練:DeepSeek 未釋出任何訓練程式碼,因此尚不清楚哪些超引數效果最佳,以及它們在不同模型家族和規模之間有何不同。
- 縮放定律:訓練推理模型時,計算和資料之間存在哪些權衡?
這些問題促使我們啟動了 Open-R1 專案,這是一項系統性地重建 DeepSeek-R1 的資料和訓練流程,驗證其主張,並推動開放推理模型邊界的倡議。透過構建 Open-R1,我們旨在提供強化學習如何增強推理的透明度,與開源社群分享可復現的見解,併為未來的模型利用這些技術奠定基礎。
在這篇部落格文章中,我們將深入探討 DeepSeek-R1 背後的關鍵要素、我們計劃複製的部分,以及如何為 Open-R1 專案做出貢獻。
讓我們開始吧 🚀!
他們是如何做到的?
DeepSeek-R1 是一個基於 DeepSeek-V3 基礎模型構建的推理模型。像任何優秀的推理模型一樣,它始於一個強大的基礎模型,而 DeepSeek-V3 正是如此。這個 671B 專家混合(MoE)模型的表現與 Sonnet 3.5 和 GPT-4o 等重量級模型不相上下。尤其令人印象深刻的是它的訓練成本效率——僅需 550 萬美元——這得益於多令牌預測(MTP)、多頭潛在注意力(MLA)等架構改進以及大量的(確實,非常多)硬體最佳化。
DeepSeek 還推出了兩個模型:DeepSeek-R1-Zero 和 DeepSeek-R1,每個模型都有獨特的訓練方法。DeepSeek-R1-Zero 完全跳過了監督微調,完全依賴於強化學習(RL),使用群組相對策略最佳化(GRPO)來提高過程效率。模型使用一個簡單的獎勵系統進行引導,根據答案的準確性和結構提供反饋。這種方法幫助模型開發了有用的推理技能,例如將問題分解為多個步驟並驗證自己的輸出。然而,它的回覆通常缺乏清晰度,並且難以閱讀。
這就是 DeepSeek-R1 的用武之地。它從一個“冷啟動”階段開始,對一小組精心製作的示例進行微調,以提高畫質晰度和可讀性。在此之後,它經歷了更多的強化學習和精煉步驟,包括使用基於人類偏好和可驗證獎勵的機制拒絕低質量輸出,從而建立了一個不僅推理良好,而且能產生精美且一致答案的模型。

這一切聽起來很棒,但實際缺少了什麼呢?讓我們來看看拼圖中缺失的部分。
Open-R1:缺失的部分
DeepSeek-R1 的釋出對社群來說是一個巨大的福音,但他們並沒有釋出**所有東西**——儘管模型權重是開放的,但用於訓練模型的資料集和程式碼卻沒有 😢。
Open-R1 的目標是構建這些缺失的部分,以便整個研究和工業社群可以使用這些方法和資料集構建類似或更好的模型。透過公開進行這項工作,社群中的每個人都可以做出貢獻!
如下圖所示,這是我們的攻擊計劃:
- **第一步:** 透過從 DeepSeek-R1 中提取高質量推理資料集來複制 R1-Distill 模型。
- **第二步:** 複製 DeepSeek 用於建立 R1-Zero 的純 RL 管道。這將涉及為數學、推理和程式碼策劃新的大規模資料集。
- **第三步:** 展示我們可以透過多階段訓練從基礎模型 → SFT → RL。

請注意,我們不想止步於數學資料集。在其他領域,如程式碼,以及醫學等科學領域,推理模型可能產生重大影響,潛力巨大。
這項倡議不僅是為了復現成果,更是為了與社群分享見解。透過記錄有效、無效以及原因,我們希望能夠避免他人將時間和計算資源浪費在無用的路徑上。
如果這聽起來很有趣,我們很樂意得到你的幫助!無論是貢獻程式碼,還是加入Hugging Face上的討論,都有很多方式可以參與。讓我們一起構建吧!🚀