深度強化學習課程文件
任務型別
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
任務型別
任務是強化學習問題的**一個例項**。我們可以有兩種型別的任務:**情景式**和**持續式**。
情景式任務
在這種情況下,我們有一個起始點和一個終止點**(一個終止狀態)。這構成了一個情節**:一個由狀態、動作、獎勵和新狀態組成的列表。
例如,想想《超級馬里奧兄弟》:一個情節從一個新的馬里奧關卡開始,當**你被殺死或到達關卡末尾時結束**。
持續式任務
這些任務**永遠持續**(**沒有終止狀態**)。在這種情況下,代理必須**學習如何選擇最佳動作並同時與環境互動**。
例如,一個進行自動化股票交易的代理。對於這個任務,沒有起始點和終止狀態。**代理會一直執行,直到我們決定停止它。**
總結一下
< > 在 GitHub 上更新