深度強化學習課程文件

任務型別

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

任務型別

任務是強化學習問題的**一個例項**。我們可以有兩種型別的任務:**情景式**和**持續式**。

情景式任務

在這種情況下,我們有一個起始點和一個終止點**(一個終止狀態)。這構成了一個情節**:一個由狀態、動作、獎勵和新狀態組成的列表。

例如,想想《超級馬里奧兄弟》:一個情節從一個新的馬里奧關卡開始,當**你被殺死或到達關卡末尾時結束**。

Mario
新情節的開始。

持續式任務

這些任務**永遠持續**(**沒有終止狀態**)。在這種情況下,代理必須**學習如何選擇最佳動作並同時與環境互動**。

例如,一個進行自動化股票交易的代理。對於這個任務,沒有起始點和終止狀態。**代理會一直執行,直到我們決定停止它。**

Stock Market

總結一下

Tasks recap < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.