深度強化學習課程文件

探索/利用權衡

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

探索/利用權衡

最後,在瞭解解決強化學習問題的不同方法之前,我們必須再討論一個非常重要的主題:探索/利用權衡。

  • 探索 是指透過嘗試隨機行動來探索環境,以 獲取更多關於環境的資訊。
  • 利用 是指 利用已知資訊來最大化獎勵。

請記住,我們的強化學習代理的目標是最大化預期累積獎勵。然而,我們可能會陷入一個常見的陷阱。

舉個例子

Exploration

在這個遊戲中,我們的老鼠可以有 無限量的小乳酪 (每個+1)。但在迷宮的頂部,有一大筆乳酪(+1000)。

然而,如果我們只專注於利用,我們的代理將永遠無法到達那一大筆乳酪。相反,它只會利用 最近的獎勵來源, 即使這個來源很小(利用)。

但是,如果我們的代理進行一些探索,它就可以 發現大獎勵 (那堆大乳酪)。

這就是我們所說的 探索/利用權衡。我們需要平衡我們 探索環境 的程度和我們 利用我們對環境的已知資訊 的程度。

因此,我們必須 定義一個有助於處理這種權衡的規則。我們將在未來的單元中看到處理它的不同方法。

如果仍然感到困惑,可以思考一個真實世界的問題:選擇一家餐館:

Exploration
來源: 伯克利人工智慧課程
  • 利用:你每天都去你已知的好餐館,冒著錯過另一家更好餐館的風險。
  • 探索:嘗試你以前從未去過的餐館,冒著體驗不佳的風險,但同時也有可能獲得絕佳體驗。

總結一下

探索利用權衡 < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.