深度強化學習課程文件
RLHF
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
RLHF
基於人類反饋的強化學習 (RLHF) 是一種將人類資料標籤整合到基於強化學習的最佳化過程中的方法。它的動機在於對人類偏好進行建模的挑戰。
對於許多問題,即使你可以嘗試為某個理想寫出方程式,人類的偏好也各不相同。
根據測量資料更新模型是嘗試緩解這些固有人類機器學習問題的一種途徑。
開始學習 RLHF
要開始學習 RLHF
閱讀這篇介紹文章:《圖解基於人類反饋的強化學習 (RLHF)》。
觀看我們幾周前錄製的直播,Nathan 在其中介紹了基於人類反饋的強化學習 (RLHF) 的基礎知識,以及這項技術如何用於實現 ChatGPT 等最先進的機器學習工具。大部分內容是對相互關聯的機器學習模型的概述。它涵蓋了自然語言處理和強化學習的基礎知識,以及 RLHF 如何用於大型語言模型。最後,我們討論了 RLHF 中的開放問題。
- 閱讀關於此主題的其他部落格,例如《封閉 API 與開源之爭仍在繼續:RLHF、ChatGPT、資料護城河》。如果您有更多喜歡的,請告訴我們!
延伸閱讀
注意:這部分內容複製自上面的《圖解 RLHF》部落格文章。以下是迄今為止關於 RLHF 最普遍的論文列表。該領域隨著深度強化學習(約2017年)的興起而普及,並已發展成為許多大型科技公司對大型語言模型應用進行更廣泛研究的領域。以下是一些早於專注於語言模型的 RLHF 論文:
- TAMER: 透過評估性強化手動訓練智慧體 (Knox and Stone 2008):提出了一種學習型智慧體,人類對其採取的行動進行迭代評分,以學習獎勵模型。
- 基於策略相關人類反饋的互動式學習 (MacGlashan et al. 2017):提出了一種 Actor-Critic 演算法 COACH,其中人類反饋(包括積極和消極)用於調整優勢函式。
- 基於人類偏好的深度強化學習 (Christiano et al. 2017):RLHF 應用於 Atari 軌跡之間的偏好。
- Deep TAMER: 高維狀態空間中的互動式智慧體塑造 (Warnell et al. 2018):擴充套件了 TAMER 框架,使用深度神經網路來建模獎勵預測。
以下是關於 RLHF 在語言模型中表現不斷增長的論文集合的概覽:
- 基於人類偏好微調語言模型 (Zieglar et al. 2019):一篇早期研究獎勵學習對四個特定任務影響的論文。
- 基於人類反饋的學習摘要 (Stiennon et al., 2020):RLHF 應用於文字摘要任務。另請參閱 基於人類反饋遞迴總結書籍 (OpenAI Alignment Team 2021),後續工作是總結書籍。
- WebGPT: 瀏覽器輔助的帶人類反饋的問答 (OpenAI, 2021):使用 RLHF 訓練智慧體來瀏覽網頁。
- InstructGPT: 透過人類反饋訓練語言模型以遵循指令 (OpenAI Alignment Team 2022):RLHF 應用於通用語言模型 [InstructGPT 部落格文章]。
- GopherCite: 教語言模型用經過驗證的引用支援答案 (Menick et al. 2022):用 RLHF 訓練語言模型,使其返回帶有特定引用的答案。
- Sparrow: 透過有針對性的人類判斷改進對話代理的對齊 (Glaese et al. 2022):使用 RLHF 微調對話代理。
- ChatGPT: 最佳化用於對話的語言模型 (OpenAI 2022):使用 RLHF 訓練語言模型,使其適合作為通用聊天機器人使用。
- 獎勵模型過度最佳化的縮放定律 (Gao et al. 2022):研究 RLHF 中學習到的偏好模型的縮放特性。
- 透過基於人類反饋的強化學習訓練一個有幫助且無害的助手 (Anthropic, 2022):詳細記錄了使用 RLHF 訓練語言模型助手的過程。
- 對語言模型進行紅隊演練以減少危害:方法、擴充套件行為和經驗教訓 (Ganguli et al. 2022):詳細記錄了“發現、衡量並嘗試減少 [語言模型] 潛在有害輸出”的努力。
- 使用強化學習在開放式對話中進行動態規劃 (Cohen et al. 2022):使用強化學習增強開放式對話代理的對話技能。
- 強化學習(不)適用於自然語言處理嗎?:自然語言策略最佳化的基準、基線和構建塊 (Ramamurthy and Ammanabrolu et al. 2022):討論了 RLHF 中開源工具的設計空間,並提出了一種新的演算法 NLPO(自然語言策略最佳化)作為 PPO 的替代方案。
作者
本節由Nathan Lambert撰寫。
< > 在 GitHub 上更新