深度強化學習課程文件
RL 中的語言模型
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
RL 中的語言模型
語言模型為代理編碼有用知識
語言模型(LMs)在文字操作方面表現出令人印象深刻的能力,例如問答甚至分步推理。此外,它們在大量文字語料庫上的訓練使它們能夠編碼各種型別的知識,包括關於我們世界物理規則的抽象知識(例如,一個物體可以做什麼,當一個物體旋轉時會發生什麼……)。
最近研究的一個自然問題是,當機器人等代理嘗試解決日常任務時,這些知識是否能惠及它們。雖然這些工作顯示出有趣的結果,但所提出的代理缺乏任何學習方法。這種限制阻止了這些代理適應環境(例如,修正錯誤知識)或學習新技能。
語言模型和強化學習
因此,語言模型(可以帶來關於世界的知識)和強化學習(可以透過與環境互動來調整和修正這些知識)之間存在潛在的協同作用。從強化學習的角度來看,這尤其有趣,因為強化學習領域主要依賴於從零開始(Tabula-rasa)的設定,即代理從頭開始學習一切,這導致:
1) 樣本效率低下
2) 人類眼中意想不到的行為
作為首次嘗試,論文“使用線上強化學習接地大型語言模型”解決了使用 PPO 將語言模型適應或對齊到文字環境的問題。他們表明,語言模型中編碼的知識能夠快速適應環境(為樣本高效的強化學習代理開闢了道路),而且這種知識還能讓語言模型在對齊後更好地泛化到新任務。
在“使用大型語言模型指導強化學習中的預訓練”中研究的另一個方向是保持語言模型凍結,但利用其知識來指導強化學習代理的探索。這種方法使得強化學習代理可以在訓練期間無需人工干預的情況下,被引導到對人類有意義且可能有用的行為。
這些工作仍然非常初步,存在一些侷限性,例如在將代理的觀察結果提供給語言模型之前需要將其轉換為文字,以及與超大型語言模型互動的計算成本。
延伸閱讀
欲瞭解更多資訊,我們建議您查閱以下資源
作者
本節由 Clément Romac 撰寫
< > 在 GitHub 上更新