深度強化學習課程文件
基於模型的強化學習(MBRL)
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
基於模型的強化學習 (MBRL)
基於模型的強化學習與無模型強化學習的區別僅在於學習一個*動力學模型*,但這會對決策方式產生實質性的下游影響。
動力學模型通常模擬環境的轉換動力學,但在此框架中也可以使用逆動力學模型(將狀態對映到動作)或獎勵模型(預測獎勵)等。
簡單定義
- 有一個智慧體反覆嘗試解決問題,**積累狀態和動作資料**。
- 利用這些資料,智慧體建立一個結構化的學習工具,*動力學模型*,用於推理世界。
- 有了動力學模型,智慧體透過**預測未來來決定如何行動**。
- 透過這些行動,**智慧體收集更多資料,改進該模型,並有望改進未來的行動**。
學術定義
基於模型的強化學習(MBRL)遵循智慧體與環境互動的框架,**學習該環境的模型**,然後**利用該模型進行控制(做出決策)**。
具體來說,智慧體在一個由轉換函式控制的馬爾可夫決策過程(MDP)中行動並在每一步返回獎勵。利用收集到的資料集,智慧體學習一個模型, 以最小化轉換的負對數似然.
我們使用基於取樣的模型預測控制 (MPC) 和學習到的動力學模型,該模型優化了在有限的遞迴預測範圍內的預期獎勵,,從均勻分佈中取樣的一組動作,(參見論文或論文或論文)。
延伸閱讀
有關 MBRL 的更多資訊,我們建議您檢視以下資源
作者
本節由Nathan Lambert撰寫。
< > 在 GitHub 上更新