LLM 課程文件

強化學習及其在大型語言模型 (LLM) 中的作用簡介

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

強化學習及其在大型語言模型 (LLM) 中的作用簡介

歡迎來到第一頁!

我們將踏上激動人心的強化學習 (RL) 之旅,探索它如何徹底改變我們訓練語言模型(如您日常使用的那些模型)的方式。

在本章中,我們將重點關注語言模型的強化學習。然而,強化學習是一個廣闊的領域,除了語言模型之外還有許多應用。如果您對強化學習的更多內容感興趣,可以檢視深度強化學習課程

即使您從未接觸過 RL,本頁也將為您提供一個友好而清晰的介紹。我們將剖析核心思想,並瞭解為什麼 RL 在大型語言模型 (LLM) 領域變得如此重要。

什麼是強化學習 (RL)?

想象一下您正在訓練一隻狗。您想教它坐下。您可能會說“坐下!”,然後,如果狗坐下了,您就給它零食和表揚。如果它不坐下,您可能會輕輕引導它,或者再試一次。隨著時間的推移,狗學會將坐下與積極的獎勵(零食和表揚)聯絡起來,並且當您再次說“坐下!”時,它更有可能坐下。在強化學習中,我們將這種反饋稱為獎勵

簡而言之,這就是強化學習的基本思想!我們不是訓練狗,而是訓練語言模型(在強化學習中,我們稱之為智慧體),而我們則充當提供反饋的環境

RL terms Process

讓我們來分解一下 RL 的關鍵組成部分

智慧體 (Agent)

這是我們的學習者。在狗的例子中,狗就是智慧體。在 LLM 的上下文中,LLM 本身就成為我們想要訓練的智慧體。智慧體是做出決策並從環境及其獎勵中學習的。

環境 (Environment)

這是智慧體生活並與之互動的世界。對於狗來說,環境就是您的房子和您。對於 LLM 來說,環境有點抽象——它可能是與之互動的使用者,或者是我們為其設定的模擬場景。環境向智慧體提供反饋。

行動 (Action)

這些是智慧體在環境中可以做出的選擇。狗的行動是“坐下”、“站立”、“吠叫”等。對於 LLM 來說,行動可以是生成句子中的單詞、選擇問題的答案,或者決定如何在對話中做出回應。

獎勵 (Reward)

這是智慧體執行動作後環境給予的反饋。獎勵通常是數字。

積極獎勵就像零食和表揚——它們告訴智慧體“做得好,你做對了!”。

負面獎勵(或懲罰)就像一聲溫柔的“不”——它們告訴智慧體“那不太對,試試別的”。對於狗來說,零食就是獎勵。

對於 LLM 來說,獎勵旨在反映 LLM 在特定任務中的表現——也許是其響應的有用性、真實性或無害性。

策略 (Policy)

這是智慧體選擇行動的策略。這就像狗理解當您說“坐下!”時它應該做什麼。在 RL 中,策略是我們真正想要學習和改進的。它是一組規則或一個函式,告訴智慧體在不同情況下采取什麼行動。最初,策略可能是隨機的,但隨著智慧體的學習,策略會更好地選擇導致更高獎勵的行動。

RL 過程:試錯

RL Process

強化學習透過試錯過程進行

步驟 過程 描述
1. 觀察 智慧體觀察環境 智慧體接收有關其當前狀態和周圍環境的資訊
2. 行動 智慧體根據其當前策略採取行動 智慧體利用其學習到的策略(policy)決定下一步做什麼
3. 反饋 環境給予智慧體獎勵 智慧體收到對其行動好壞的反饋
4. 學習 智慧體根據獎勵更新其策略 智慧體調整其策略——強化帶來高獎勵的行動,避免帶來低獎勵的行動
5. 迭代 重複此過程 這個迴圈持續進行,使智慧體能夠不斷改進其決策。

想想學騎腳踏車。一開始你可能會搖搖晃晃地摔倒(負面獎勵!)。但當你成功地保持平衡並順利踩踏時,你會感覺良好(正面獎勵!)。你根據這些反饋調整你的行動——稍微傾斜,踩得更快等等——直到你學會騎得很好。RL 也是如此——它透過互動和反饋來學習。

RL 在大型語言模型 (LLM) 中的作用

那麼,為什麼 RL 對大型語言模型如此重要呢?

嗯,訓練真正好的 LLM 很棘手。我們可以用網際網路上大量的文字來訓練它們,它們在預測句子中的下一個詞方面變得非常擅長。正如我們在第二章中學到的,這就是它們學習生成流利且語法正確的文字的方式。

然而,僅僅流利是不夠的。我們希望我們的 LLM 不僅僅擅長串聯單詞。我們希望它們能夠:

  • 有幫助:提供有用且相關的資訊。
  • 無害:避免生成有害、偏見或有害內容。
  • 與人類偏好保持一致:以人類認為自然、有幫助和引人入勝的方式回應。

預訓練 LLM 方法主要依賴於從文字資料中預測下一個單詞,有時在這些方面表現不佳。

雖然監督訓練在生成結構化輸出方面表現出色,但在生成有益、無害和對齊的響應方面效果不佳。我們在第 11 章中探討了監督訓練。

經過微調的模型可能會生成流利且結構化的文字,但這些文字仍然可能存在事實錯誤、偏見,或者無法以有用的方式真正回答使用者的問題。

強化學習應運而生!RL 為我們提供了一種微調這些預訓練 LLM 的方法,以更好地實現這些期望的品質。這就像給我們的 LLM 狗進行額外的訓練,讓它成為一個行為良好且樂於助人的夥伴,而不僅僅是一隻會流利吠叫的狗!

基於人類反饋的強化學習 (RLHF)

一種非常流行的對齊語言模型的技術是基於人類反饋的強化學習 (RLHF)。在 RLHF 中,我們使用人類反饋作為 RL 中“獎勵”訊號的代理。其工作原理如下:

  1. 獲取人類偏好:我們可能會要求人類比較 LLM 為相同輸入提示生成的不同響應,並告訴我們他們更喜歡哪一個響應。例如,我們可能會向人類展示兩個對問題“法國的首都是什麼?”的不同回答,並詢問他們“哪個回答更好?”。

  2. 訓練獎勵模型:我們使用這些人類偏好資料來訓練一個單獨的模型,稱為獎勵模型。該獎勵模型學習預測人類會喜歡哪種響應。它學習根據有用性、無害性以及與人類偏好的一致性來評估響應。

  3. 使用 RL 微調 LLM:現在我們將獎勵模型用作 LLM 智慧體的環境。LLM 生成響應(行動),獎勵模型評估這些響應(提供獎勵)。本質上,我們正在訓練 LLM 生成我們的獎勵模型(從人類偏好中學習)認為好的文字。

RL Basic Concept

從宏觀角度看,讓我們來看看在 LLM 中使用 RL 的好處

益處 描述
改進控制 RL 允許我們更好地控制 LLM 生成的文字型別。我們可以引導它們生成更符合特定目標的文字,例如有用、有創意或簡潔。
增強與人類價值觀的一致性 尤其是 RLHF,它幫助我們將 LLM 與複雜且通常主觀的人類偏好對齊。很難寫出“什麼是好的答案”的規則,但人類可以很容易地判斷和比較回答。RLHF 讓模型從這些人類判斷中學習。
減少不良行為 RL 可用於減少 LLM 中的負面行為,例如生成有害語言、傳播錯誤資訊或表現出偏見。透過設計懲罰這些行為的獎勵,我們可以引導模型避免它們。

基於人類反饋的強化學習已用於訓練當今許多最流行的大型語言模型,例如 OpenAI 的 GPT-4、Google 的 Gemini 和 DeepSeek 的 R1。RLHF 的技術種類繁多,複雜程度和精細程度各不相同。在本章中,我們將重點關注群組相對策略最佳化 (GRPO),這是一種 RLHF 技術,已被證明在訓練有用、無害且符合人類偏好的大型語言模型方面是有效的。

我們為什麼要關注 GRPO(群組相對策略最佳化)?

RLHF 有許多技術,但本課程專注於 GRPO,因為它代表了語言模型強化學習的重大進步。

讓我們簡要考慮另外兩種流行的 RLHF 技術

  • 近端策略最佳化 (PPO)
  • 直接偏好最佳化 (DPO)

近端策略最佳化(PPO)是 RLHF 首批高效技術之一。它使用策略梯度方法,根據來自獨立獎勵模型的獎勵來更新策略。

直接偏好最佳化(DPO)後來被開發為一種更簡單的技術,它無需單獨的獎勵模型,而是直接使用偏好資料。本質上,將問題框架為選擇和拒絕響應之間的分類任務。

DPO 和 PPO 本身是複雜的強化學習演算法,我們不會在本課程中涵蓋。如果您有興趣瞭解更多資訊,可以檢視以下資源:

與 DPO 和 PPO 不同,GRPO 將相似樣本分組並進行比較。基於群組的方法比其他方法提供更穩定的梯度和更好的收斂特性。

GRPO 不像 DPO 那樣使用偏好資料,而是使用來自模型或函式的獎勵訊號來比較一組相似的樣本。

GRPO 在獲取獎勵訊號方面具有靈活性——它可以使用獎勵模型(如 PPO),但並非嚴格要求。這是因為 GRPO 可以從任何能夠評估響應質量的函式或模型中獲取獎勵訊號。

例如,我們可以使用長度函式獎勵較短的響應,使用數學求解器驗證解決方案的正確性,或者使用事實正確性函式獎勵更符合事實的響應。這種靈活性使得 GRPO 特別適用於不同型別的對齊任務。


恭喜您完成第一模組!您現在已經對強化學習及其在塑造大型語言模型未來方面的關鍵作用有了紮實的介紹。您瞭解了 RL 的基本概念、它在 LLM 中使用的原因,並且您已經接觸了 GRPO,這是該領域的一個關鍵演算法。

在下一模組中,我們將親自動手,深入研究 DeepSeek R1 論文,親眼看看這些概念是如何實際應用的!

測驗

1. 強化學習的關鍵組成部分是什麼?

2. RLHF 訓練語言模型的主要優勢是什麼?

3. 在 LLM 的 RL 上下文中,“行動”代表什麼?

4. 獎勵在語言模型 RL 訓練中的作用是什麼?

5. 在 LLM 的 RL 上下文中,獎勵是什麼?

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.