深度強化學習課程文件

離線強化學習與線上強化學習

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

離線強化學習與線上強化學習

深度強化學習(RL)是構建決策代理的框架。這些代理旨在透過試錯和接收作為獨特反饋的獎勵來與環境互動,從而學習最佳行為(策略)。

代理的目標是最大化其累積獎勵,稱為回報。因為強化學習基於獎勵假設:所有目標都可以描述為預期累積獎勵的最大化

深度強化學習代理透過批次經驗學習。問題是,它們如何收集這些經驗?

Unit bonus 3 thumbnail
線上和離線強化學習的比較,圖片來自這篇文章
  • 線上強化學習中,也就是我們在本課程中學習到的,代理直接收集資料:它透過與環境互動來收集一批經驗。然後,它立即(或透過一些回放緩衝區)使用這些經驗進行學習(更新其策略)。

但這意味著你要麼直接在現實世界中訓練你的代理,要麼擁有一個模擬器。如果你沒有模擬器,你需要構建它,這可能非常複雜(如何反映現實世界的複雜性?)、昂貴且不安全(如果模擬器存在可能提供競爭優勢的缺陷,代理將利用它們)。

  • 另一方面,在離線強化學習中,代理只使用從其他代理或人類演示中收集的資料。它不與環境互動

過程如下:

  • 使用一個或多個策略和/或人類互動建立資料集
  • 在此資料集上執行離線強化學習以學習策略。

這種方法有一個缺點:反事實查詢問題。如果我們的代理決定做一些我們沒有資料的事情怎麼辦?例如,在十字路口右轉,但我們沒有這個軌跡資料。

關於這個問題有一些解決方案,但如果你想了解更多關於離線強化學習的資訊,你可以觀看這個影片

延伸閱讀

欲瞭解更多資訊,我們建議您檢視以下資源:

作者

本節由Thomas Simonini撰寫。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.