面向學生的Open R1

歡迎踏上激動人心的開源人工智慧與強化學習之旅！本章旨在幫助學生理解強化學習及其在大型語言模型 (LLM) 中的作用。

我們還將探索 Open R1，這是一個開創性的社群專案，它使先進的人工智慧人人可及。具體來說，本課程旨在幫助學生和學習者使用並貢獻 Open R1。

您將學到什麼

在本章中，我們將把複雜的概念分解成易於理解的部分，並向您展示如何參與到這個激動人心的專案中，讓LLM能夠解決複雜問題。

LLM在許多生成任務上都表現出色。然而，直到最近，它們在需要推理的複雜問題上一直表現不佳。例如，它們在處理需要多步推理的謎題或數學問題時會遇到困難。

Open R1是一個旨在讓LLM能夠解決複雜問題的專案。它透過使用強化學習來鼓勵LLM“思考”和推理。

簡單來說，模型被訓練來生成思想和輸出，並對這些思想和輸出進行結構化，以便使用者可以單獨處理它們。

我們來看一個例子。當我們要解決以下問題時，我們可能會這樣思考：

Problem: "I have 3 apples and 2 oranges. How many pieces of fruit do I have in total?"

Thought: "I need to add the number of apples and oranges to get the total number of pieces of fruit."

Answer: "5"

然後，我們可以將這種思想和答案進行結構化，以便使用者可以單獨處理它們。對於推理任務，LLM可以被訓練成以下格式生成思想和答案：

<think>I need to add the number of apples and oranges to get the total number of pieces of fruit.</think>
5

作為使用者，我們就可以從模型的輸出中提取思想和答案，並用它們來解決問題。

這為什麼對學生很重要

作為學生，瞭解Open R1以及強化學習在LLM中的作用很有價值，因為它：

向您展示了尖端人工智慧是如何開發的
為您提供動手學習和貢獻的機會
幫助您瞭解人工智慧技術的發展方向
為未來的人工智慧職業機會開啟大門

章節概覽

本章分為四個部分，每個部分都側重於Open R1的不同方面

1️⃣ 強化學習及其在LLM中的作用簡介

我們將探討強化學習 (RL) 的基礎知識及其在訓練LLM中的作用。

什麼是RL？
RL是如何在LLM中使用的？
什麼是DeepSeek R1？
DeepSeek R1的主要創新點是什麼？

2️⃣ 理解DeepSeek R1論文

我們將深入分析啟發 Open R1 的研究論文

主要創新與突破
訓練過程和架構
結果及其意義

3️⃣ 在TRL中實現GRPO

我們將透過程式碼示例進行實踐

如何使用Transformer強化學習 (TRL) 庫
設定GRPO訓練

4️⃣ 模型對齊的實際應用案例

我們將探討一個使用Open R1對齊模型的實際應用案例。

如何在TRL中使用GRPO訓練模型
在 Hugging Face Hub 上分享您的模型

先決條件

為了充分利用本章內容，建議您具備以下知識：

紮實的Python程式設計基礎
熟悉機器學習概念
對人工智慧和語言模型感興趣

如果您缺少其中一些知識，請不用擔心——我們將在講解過程中解釋關鍵概念！🚀

如果您沒有滿足所有先決條件，請檢視本課程的第1至11單元

如何使用本章

按順序閱讀：各部分內容層層遞進，建議按順序閱讀。
分享筆記：記下關鍵概念和問題，並在Discord社群中討論Discord
嘗試程式碼：遇到實踐示例時，請親自嘗試。
加入社群：使用我們提供的資源與其他學習者建立聯絡。

讓我們開始探索Open R1，並發現您如何參與到使人工智慧更普及的專案中來！🚀

< > 在 GitHub 上更新

LLM 課程