深度強化學習課程文件
金字塔環境
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
金字塔環境
此環境的目標是訓練我們的代理,使其拿到金字塔頂部的金磚。為此,它需要按下按鈕生成金字塔,導航到金字塔,將其推倒,然後移動到頂部的金磚。
獎勵函式
獎勵函式是
用程式碼表示如下:
為了訓練這個新的代理來尋找按鈕然後摧毀金字塔,我們將結合使用兩種型別的獎勵:
- 環境提供的外部獎勵(如上圖所示)。
- 以及一種稱為好奇心的內部獎勵。這第二個獎勵將促使我們的代理產生好奇心,或者換句話說,更好地探索其環境。
如果您想了解更多關於好奇心的資訊,下一節(可選)將解釋其基本原理。
觀察空間
在觀察方面,我們使用了148個射線投射,每個都可以檢測物體(開關、磚塊、金磚和牆壁)。
我們還使用了一個布林變數來指示開關狀態(我們是否開啟或關閉了開關以生成金字塔),以及一個包含代理速度的向量。
動作空間
動作空間是離散的,有四種可能的動作:
< > 在 GitHub 上更新