深度強化學習課程文件

探索/利用權衡

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

簡介什麼是強化學習？強化學習框架任務型別探索/利用權衡解決強化學習問題的兩種主要方法深度強化學習中的“深度” 總結詞彙表動手實踐測驗結論延伸閱讀

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

探索/利用權衡

最後，在瞭解解決強化學習問題的不同方法之前，我們必須再討論一個非常重要的主題：探索/利用權衡。

探索是指透過嘗試隨機行動來探索環境，以 獲取更多關於環境的資訊。
利用是指 利用已知資訊來最大化獎勵。

請記住，我們的強化學習代理的目標是最大化預期累積獎勵。然而，我們可能會陷入一個常見的陷阱。

舉個例子

Exploration

在這個遊戲中，我們的老鼠可以有 無限量的小乳酪 （每個+1）。但在迷宮的頂部，有一大筆乳酪（+1000）。

然而，如果我們只專注於利用，我們的代理將永遠無法到達那一大筆乳酪。相反，它只會利用 最近的獎勵來源， 即使這個來源很小（利用）。

但是，如果我們的代理進行一些探索，它就可以 發現大獎勵 （那堆大乳酪）。

這就是我們所說的探索/利用權衡。我們需要平衡我們 探索環境 的程度和我們 利用我們對環境的已知資訊 的程度。

因此，我們必須 定義一個有助於處理這種權衡的規則。我們將在未來的單元中看到處理它的不同方法。

如果仍然感到困惑，可以思考一個真實世界的問題：選擇一家餐館：

Exploration — 來源：伯克利人工智慧課程

利用：你每天都去你已知的好餐館，冒著錯過另一家更好餐館的風險。
探索：嘗試你以前從未去過的餐館，冒著體驗不佳的風險，但同時也有可能獲得絕佳體驗。

總結一下

探索利用權衡

< > 在 GitHub 上更新

←任務型別解決強化學習問題的兩種主要方法→

© . This site is unofficial and not affiliated with Hugging Face, Inc.