深度強化學習課程文件

金字塔環境

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

介紹 ML-Agents 如何工作？雪球目標環境金字塔環境（可選）深度強化學習中的好奇心是什麼？動手實踐額外內容：學習使用 Unity 和 MLAgents 建立自己的環境測驗總結

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

金字塔環境

此環境的目標是訓練我們的代理，使其拿到金字塔頂部的金磚。為此，它需要按下按鈕生成金字塔，導航到金字塔，將其推倒，然後移動到頂部的金磚。

Pyramids Environment

獎勵函式

獎勵函式是

Pyramids Environment

用程式碼表示如下：

Pyramids Reward

為了訓練這個新的代理來尋找按鈕然後摧毀金字塔，我們將結合使用兩種型別的獎勵：

環境提供的外部獎勵（如上圖所示）。
以及一種稱為好奇心的內部獎勵。這第二個獎勵將促使我們的代理產生好奇心，或者換句話說，更好地探索其環境。

如果您想了解更多關於好奇心的資訊，下一節（可選）將解釋其基本原理。

觀察空間

在觀察方面，我們使用了148個射線投射，每個都可以檢測物體（開關、磚塊、金磚和牆壁）。

我們還使用了一個布林變數來指示開關狀態（我們是否開啟或關閉了開關以生成金字塔），以及一個包含代理速度的向量。

Pyramids obs code

動作空間

動作空間是離散的，有四種可能的動作：

金字塔環境

< > 在 GitHub 上更新

←雪球目標環境（可選）深度強化學習中的好奇心是什麼？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.