深度強化學習課程文件
探索/利用權衡
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
探索/利用權衡
最後,在瞭解解決強化學習問題的不同方法之前,我們必須再討論一個非常重要的主題:探索/利用權衡。
- 探索 是指透過嘗試隨機行動來探索環境,以 獲取更多關於環境的資訊。
- 利用 是指 利用已知資訊來最大化獎勵。
請記住,我們的強化學習代理的目標是最大化預期累積獎勵。然而,我們可能會陷入一個常見的陷阱。
舉個例子
在這個遊戲中,我們的老鼠可以有 無限量的小乳酪 (每個+1)。但在迷宮的頂部,有一大筆乳酪(+1000)。
然而,如果我們只專注於利用,我們的代理將永遠無法到達那一大筆乳酪。相反,它只會利用 最近的獎勵來源, 即使這個來源很小(利用)。
但是,如果我們的代理進行一些探索,它就可以 發現大獎勵 (那堆大乳酪)。
這就是我們所說的 探索/利用權衡。我們需要平衡我們 探索環境 的程度和我們 利用我們對環境的已知資訊 的程度。
因此,我們必須 定義一個有助於處理這種權衡的規則。我們將在未來的單元中看到處理它的不同方法。
如果仍然感到困惑,可以思考一個真實世界的問題:選擇一家餐館:
- 利用:你每天都去你已知的好餐館,冒著錯過另一家更好餐館的風險。
- 探索:嘗試你以前從未去過的餐館,冒著體驗不佳的風險,但同時也有可能獲得絕佳體驗。
總結一下
< > 在 GitHub 上更新