Open-R1:DeepSeek-R1 的完全開放復現

釋出於 2025 年 1 月 28 日
在 GitHub 上更新

什麼是 DeepSeek-R1?

如果你曾為一道棘手的數學題而苦惱,你就會明白多花點時間仔細思考和解決問題是多麼有用。OpenAI 的 o1 模型表明,當 LLM 被訓練做同樣的事情——透過在推理過程中使用更多計算資源——它們在解決數學、編碼和邏輯等推理任務方面會顯著提高。

然而,OpenAI 推理模型背後的秘訣一直是一個嚴守的秘密。直到上週,DeepSeek 釋出了他們的 DeepSeek-R1 模型,迅速引爆了網際網路(以及股市!)。

除了表現與 o1 相當甚至更好之外,DeepSeek-R1 的釋出還附帶了一份詳細的技術報告,概述了其訓練方法中的關鍵步驟。這種方法包含了多項創新,其中最值得注意的是純粹的強化學習應用於教基礎語言模型如何在沒有**任何**人工監督的情況下進行推理。如下圖所示,如果您擁有一個功能強大的基礎模型和高質量的資料混合,構建一個強大的推理模型現在變得非常簡單

DeepSeek-R1 training pipeline

然而,DeepSeek-R1 的釋出留下了幾個懸而未決的問題:

  • 資料收集:特定於推理的資料集是如何整理的?
  • 模型訓練:DeepSeek 未釋出任何訓練程式碼,因此尚不清楚哪些超引數效果最佳,以及它們在不同模型家族和規模之間有何不同。
  • 縮放定律:訓練推理模型時,計算和資料之間存在哪些權衡?

這些問題促使我們啟動了 Open-R1 專案,這是一項系統性地重建 DeepSeek-R1 的資料和訓練流程,驗證其主張,並推動開放推理模型邊界的倡議。透過構建 Open-R1,我們旨在提供強化學習如何增強推理的透明度,與開源社群分享可復現的見解,併為未來的模型利用這些技術奠定基礎。

在這篇部落格文章中,我們將深入探討 DeepSeek-R1 背後的關鍵要素、我們計劃複製的部分,以及如何為 Open-R1 專案做出貢獻。

讓我們開始吧 🚀!

他們是如何做到的?

DeepSeek-R1 是一個基於 DeepSeek-V3 基礎模型構建的推理模型。像任何優秀的推理模型一樣,它始於一個強大的基礎模型,而 DeepSeek-V3 正是如此。這個 671B 專家混合(MoE)模型的表現與 Sonnet 3.5 和 GPT-4o 等重量級模型不相上下。尤其令人印象深刻的是它的訓練成本效率——僅需 550 萬美元——這得益於多令牌預測(MTP)、多頭潛在注意力(MLA)等架構改進以及大量的(確實,非常多)硬體最佳化。

DeepSeek 還推出了兩個模型:DeepSeek-R1-Zero 和 DeepSeek-R1,每個模型都有獨特的訓練方法。DeepSeek-R1-Zero 完全跳過了監督微調,完全依賴於強化學習(RL),使用群組相對策略最佳化(GRPO)來提高過程效率。模型使用一個簡單的獎勵系統進行引導,根據答案的準確性和結構提供反饋。這種方法幫助模型開發了有用的推理技能,例如將問題分解為多個步驟並驗證自己的輸出。然而,它的回覆通常缺乏清晰度,並且難以閱讀。

這就是 DeepSeek-R1 的用武之地。它從一個“冷啟動”階段開始,對一小組精心製作的示例進行微調,以提高畫質晰度和可讀性。在此之後,它經歷了更多的強化學習和精煉步驟,包括使用基於人類偏好和可驗證獎勵的機制拒絕低質量輸出,從而建立了一個不僅推理良好,而且能產生精美且一致答案的模型。

DeepSeek-V3 architecture

這一切聽起來很棒,但實際缺少了什麼呢?讓我們來看看拼圖中缺失的部分。

Open-R1:缺失的部分

DeepSeek-R1 的釋出對社群來說是一個巨大的福音,但他們並沒有釋出**所有東西**——儘管模型權重是開放的,但用於訓練模型的資料集和程式碼卻沒有 😢。

Open-R1 的目標是構建這些缺失的部分,以便整個研究和工業社群可以使用這些方法和資料集構建類似或更好的模型。透過公開進行這項工作,社群中的每個人都可以做出貢獻!

如下圖所示,這是我們的攻擊計劃:

  • **第一步:** 透過從 DeepSeek-R1 中提取高質量推理資料集來複制 R1-Distill 模型。
  • **第二步:** 複製 DeepSeek 用於建立 R1-Zero 的純 RL 管道。這將涉及為數學、推理和程式碼策劃新的大規模資料集。
  • **第三步:** 展示我們可以透過多階段訓練從基礎模型 → SFT → RL。
Open-R1 steps 這些合成數據集將允許所有人透過簡單地對其進行微調,將現有或新的 LLM 微調為推理模型。涉及 RL 的訓練方法將作為任何人從頭開始構建類似模型的起點,並將允許研究人員在此基礎上構建更先進的方法。

請注意,我們不想止步於數學資料集。在其他領域,如程式碼,以及醫學等科學領域,推理模型可能產生重大影響,潛力巨大。

這項倡議不僅是為了復現成果,更是為了與社群分享見解。透過記錄有效、無效以及原因,我們希望能夠避免他人將時間和計算資源浪費在無用的路徑上。

如果這聽起來很有趣,我們很樂意得到你的幫助!無論是貢獻程式碼,還是加入Hugging Face上的討論,都有很多方式可以參與。讓我們一起構建吧!🚀

社群

評估資料在哪裡?沒有它,你就不能稱之為復現。

·

沒錯,但目前看來似乎沒有什麼可評估的。我猜最終目標是訓練一個新的推理模型,然後使用與 o1 和 DeepSeek-R1 相同的評估指標。

這很有趣,我一直在問自己為什麼作者在這裡提出的問題沒有被其他人問到?我相信他們所做的工作是值得紀念的,但同時我也想知道,如果他們本應完全開放,為什麼不把這些缺失的部分放上去。
為什麼即使沒有復現和理解創新,他們也能如此大地影響市場?

·
文章作者

你好!這篇部落格文章是對該專案的介紹,並不是說我們已經復現了 R1。當我們擁有缺失的部分時,我們肯定會分享它們。你可以期待模型和資料集被上傳到這個Hugging Face 組織,並且程式碼會放在這個GitHub 倉庫

很有趣的閱讀,很高興看到更多向這個方向的努力:更多的最佳化,更少的暴力。
還想知道作者用什麼工具建立了流程圖。

·
文章作者

Excalidraw 👀

我很高興像這樣的倡議已經存在,我將嘗試做出貢獻:)

·
文章作者

期待中!🚀

已刪除

如此種族主義的文章

·

你在說什麼?

很高興看到這個開放式復現專案啟動了!

對於第一步,請檢視 https://github.com/open-thoughts/open-thoughts

https://x.com/ryanmart3n/status/1884284101265612856

讓我們一起完成這件事!

·
文章作者

看到整個開源社群團結起來真是太棒了!

有人知道 R1 的實際訓練成本嗎?我在論文或公告中找不到。媒體報道的 600 萬美元成本只是 V3 訓練成本的數字嗎?

·

糟糕...

有沒有人要求 DeepSeek 團隊釋出他們的訓練資料和程式碼,或者至少與這樣一個獨立的復現專案私下分享?他們是否拒絕了這樣的請求?

一個忠實的復現取決於使用相同的資料集和超引數。否則,與已釋出的基準之間的任何重大差異都很難確定——無論是由於訓練資料差異還是復現方法本身。

·
文章作者

從歷史上看,他們從未釋出過其 LLM 訓練的程式碼或資料集,所以我預計這次也不會有什麼不同。如果他們釋出了,那當然會很棒!

與此同時,我們只能做出最佳猜測,看看我們自己能否做到。

您提供了 Deepseek 推理訓練的良好復現過程。我將嘗試類似的方法。

這是非常有用的資訊,當代碼釋出後,我們是否可以針對特定用例進行微調?

·
文章作者

是的,當然!

請考慮移除有偏見、受汙染或未對齊的訓練資料,並努力從爬取中移除受版權保護的作品。這將使模型更具可用性。如果您重複使用了 Anthropic 的策劃檢查,這可能也會有所幫助,移除明顯有偏見的資料可能會增加很多價值。我們不希望再有一個受汙染、未對齊的開源模型,對吧?而且沒有公司會使用 Deepseek 或重複使用它的模型,對吧?
我們感謝您為人類利益所做的工作,我們希望如此。
來自新澤西的 Miike C

·

所以你的意思是要求用另一種審查來取代現有的審查?

等不及了!希望模型能不受審查,但無論你們能做什麼都行!很高興看到開源社群蓬勃發展。我沒那麼聰明,幫不上什麼忙,但我可以提供精神支援哈哈

大家好,我甚至只是想找到 DeepSeek-V2 的程式碼,以便完全理解多頭潛在注意力。你們似乎連 Hugging Face 中都沒有它的程式碼。還是我錯過了什麼?在 src/transformers/models 中沒有看到任何東西。MLA 在他們的論文中沒有正確描述,所以有它的程式碼很重要。

·
文章作者

我能為這個專案做貢獻嗎?

·

我想知道 R1 和 R1-zero 的訓練資料是什麼。關於去年秋天可能違反服務條款的 OpenAI API 呼叫,有什麼新訊息嗎?

讓我們一起構建!

這個專案給了我靈感。目前,我開發了一個增強型 transformer。目標是找出 deepseek 中等效的 SFT 元件。理論部分和數值示例都執行良好。我現在正在一個小型 LLM 中實現它。希望我們能在幾周內看到基準測試結果。感謝您的啟發。

查爾斯

釋出權重意味著開放二進位制,即免費軟體(與 SAAS 相對)。但網路實際的藍圖/設計(用高階語言定義)並未提供,因此它甚至不算部分開放(原始碼)。

很棒的工作!

附言:為什麼 OpenAI 不改名呢?因為它正在引導 AI 行業走向另一個方向。

如果 Open-R1 需要任何幫助,請告訴我。

進展如何?自二月以來我沒有看到更多評論或更新。

註冊登入 評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.