LLM 課程文件

面向學生的Open R1

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

面向學生的Open R1

歡迎踏上激動人心的開源人工智慧與強化學習之旅!本章旨在幫助學生理解強化學習及其在大型語言模型 (LLM) 中的作用。

我們還將探索 Open R1,這是一個開創性的社群專案,它使先進的人工智慧人人可及。具體來說,本課程旨在幫助學生和學習者使用並貢獻 Open R1

您將學到什麼

在本章中,我們將把複雜的概念分解成易於理解的部分,並向您展示如何參與到這個激動人心的專案中,讓LLM能夠解決複雜問題。

LLM在許多生成任務上都表現出色。然而,直到最近,它們在需要推理的複雜問題上一直表現不佳。例如,它們在處理需要多步推理的謎題或數學問題時會遇到困難。

Open R1是一個旨在讓LLM能夠解決複雜問題的專案。它透過使用強化學習來鼓勵LLM“思考”和推理。

簡單來說,模型被訓練來生成思想和輸出,並對這些思想和輸出進行結構化,以便使用者可以單獨處理它們。

我們來看一個例子。當我們要解決以下問題時,我們可能會這樣思考:

Problem: "I have 3 apples and 2 oranges. How many pieces of fruit do I have in total?"

Thought: "I need to add the number of apples and oranges to get the total number of pieces of fruit."

Answer: "5"

然後,我們可以將這種思想和答案進行結構化,以便使用者可以單獨處理它們。對於推理任務,LLM可以被訓練成以下格式生成思想和答案:

<think>I need to add the number of apples and oranges to get the total number of pieces of fruit.</think>
5

作為使用者,我們就可以從模型的輸出中提取思想和答案,並用它們來解決問題。

這為什麼對學生很重要

作為學生,瞭解Open R1以及強化學習在LLM中的作用很有價值,因為它:

  • 向您展示了尖端人工智慧是如何開發的
  • 為您提供動手學習和貢獻的機會
  • 幫助您瞭解人工智慧技術的發展方向
  • 為未來的人工智慧職業機會開啟大門

章節概覽

本章分為四個部分,每個部分都側重於Open R1的不同方面

1️⃣ 強化學習及其在LLM中的作用簡介

我們將探討強化學習 (RL) 的基礎知識及其在訓練LLM中的作用。

  • 什麼是RL?
  • RL是如何在LLM中使用的?
  • 什麼是DeepSeek R1?
  • DeepSeek R1的主要創新點是什麼?

2️⃣ 理解DeepSeek R1論文

我們將深入分析啟發 Open R1 的研究論文

  • 主要創新與突破
  • 訓練過程和架構
  • 結果及其意義

3️⃣ 在TRL中實現GRPO

我們將透過程式碼示例進行實踐

  • 如何使用Transformer強化學習 (TRL) 庫
  • 設定GRPO訓練

4️⃣ 模型對齊的實際應用案例

我們將探討一個使用Open R1對齊模型的實際應用案例。

  • 如何在TRL中使用GRPO訓練模型
  • Hugging Face Hub 上分享您的模型

先決條件

為了充分利用本章內容,建議您具備以下知識:

  • 紮實的Python程式設計基礎
  • 熟悉機器學習概念
  • 對人工智慧和語言模型感興趣

如果您缺少其中一些知識,請不用擔心——我們將在講解過程中解釋關鍵概念!🚀

如果您沒有滿足所有先決條件,請檢視本課程的第1至11單元

如何使用本章

  1. 按順序閱讀:各部分內容層層遞進,建議按順序閱讀。
  2. 分享筆記:記下關鍵概念和問題,並在Discord社群中討論Discord
  3. 嘗試程式碼:遇到實踐示例時,請親自嘗試。
  4. 加入社群:使用我們提供的資源與其他學習者建立聯絡。

讓我們開始探索Open R1,並發現您如何參與到使人工智慧更普及的專案中來!🚀

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.