深度強化學習課程文件

金字塔環境

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

金字塔環境

此環境的目標是訓練我們的代理,使其拿到金字塔頂部的金磚。為此,它需要按下按鈕生成金字塔,導航到金字塔,將其推倒,然後移動到頂部的金磚

Pyramids Environment

獎勵函式

獎勵函式是

Pyramids Environment

用程式碼表示如下:

Pyramids Reward

為了訓練這個新的代理來尋找按鈕然後摧毀金字塔,我們將結合使用兩種型別的獎勵:

  • 環境提供的外部獎勵(如上圖所示)。
  • 以及一種稱為好奇心內部獎勵。這第二個獎勵將促使我們的代理產生好奇心,或者換句話說,更好地探索其環境

如果您想了解更多關於好奇心的資訊,下一節(可選)將解釋其基本原理。

觀察空間

在觀察方面,我們使用了148個射線投射,每個都可以檢測物體(開關、磚塊、金磚和牆壁)。

我們還使用了一個布林變數來指示開關狀態(我們是否開啟或關閉了開關以生成金字塔),以及一個包含代理速度的向量

Pyramids obs code

動作空間

動作空間是離散的,有四種可能的動作:

金字塔環境 < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.