深度強化學習課程文件

基於模型的強化學習(MBRL)

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

基於模型的強化學習 (MBRL)

基於模型的強化學習與無模型強化學習的區別僅在於學習一個*動力學模型*,但這會對決策方式產生實質性的下游影響。

動力學模型通常模擬環境的轉換動力學,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t, a_t) 但在此框架中也可以使用逆動力學模型(將狀態對映到動作)或獎勵模型(預測獎勵)等。

簡單定義

  • 有一個智慧體反覆嘗試解決問題,**積累狀態和動作資料**。
  • 利用這些資料,智慧體建立一個結構化的學習工具,*動力學模型*,用於推理世界。
  • 有了動力學模型,智慧體透過**預測未來來決定如何行動**。
  • 透過這些行動,**智慧體收集更多資料,改進該模型,並有望改進未來的行動**。

學術定義

基於模型的強化學習(MBRL)遵循智慧體與環境互動的框架,**學習該環境的模型**,然後**利用該模型進行控制(做出決策)**。

具體來說,智慧體在一個由轉換函式控制的馬爾可夫決策過程(MDP)中行動st+1=f(st,at) s_{t+1} = f (s_t , a_t) 並在每一步返回獎勵r(st,at) r(s_t, a_t) 。利用收集到的資料集D:=si,ai,si+1,ri D :={ s_i, a_i, s_{i+1}, r_i} ,智慧體學習一個模型,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t , a_t) 以最小化轉換的負對數似然.

我們使用基於取樣的模型預測控制 (MPC) 和學習到的動力學模型,該模型優化了在有限的遞迴預測範圍內的預期獎勵,τ \tau ,從均勻分佈中取樣的一組動作U(a) U(a) ,(參見論文論文論文)。

延伸閱讀

有關 MBRL 的更多資訊,我們建議您檢視以下資源

作者

本節由Nathan Lambert撰寫。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.