深度強化學習課程文件
(可選)深度強化學習中的好奇心是什麼?
並獲得增強的文件體驗
開始使用
(可選)深度強化學習中的好奇心是什麼?
這是關於好奇心的(可選)介紹。如果你想了解更多,可以閱讀另外兩篇文章,其中我們深入探討了數學細節。
現代強化學習的兩個主要問題
要理解好奇心是什麼,我們首先需要理解強化學習的兩個主要問題。
首先是**稀疏獎勵問題:**即**大多數獎勵不包含資訊,因此被設為零**。
請記住,強化學習基於**獎勵假設**,即每個目標都可以被描述為最大化獎勵。因此,獎勵充當強化學習智慧體的反饋;**如果它們沒有收到任何獎勵,它們對哪個動作是適當的(或不適當的)知識就無法改變**。
例如,在基於遊戲 Doom 的環境集“DoomMyWayHome”中,你的智慧體只有在**找到背心時**才會獲得獎勵。然而,背心離你的起點很遠,所以你的大多數獎勵都將是零。因此,如果我們的智慧體沒有收到有用的反饋(密集獎勵),它將需要更長的時間來學習最優策略,並且**它可能會在沒有找到目標的情況下原地打轉**。
第二個大問題是**外部獎勵函式是手工製作的;在每個環境中,人類都必須實現一個獎勵函式**。但是我們如何在大而複雜的環境中實現規模化呢?
那麼什麼是好奇心?
解決這些問題的一個方法是**開發一種智慧體內部的獎勵函式,即由智慧體自身生成**。智慧體將充當一個自學者,因為它將是學生和它自己的反饋大師。
**這種內在獎勵機制被稱為好奇心**,因為這種獎勵會促使智慧體探索新穎/不熟悉的狀態。為了實現這一點,我們的智慧體在探索新軌跡時會獲得高獎勵。
這種獎勵的靈感來源於人類的行為。**我們天生就有一種探索環境和發現新事物的內在慾望**。
有不同的方法可以計算這種內在獎勵。經典的方法(透過下一狀態預測的好奇心)是**將好奇心計算為智慧體在給定當前狀態和所採取行動的情況下預測下一狀態的誤差**。
因為好奇心的理念是**鼓勵我們的智慧體執行能夠減少智慧體預測其行動後果能力的不確定性的行動**(不確定性在智慧體花費時間較少或動態複雜區域會更高)。
如果智慧體在這些狀態上花費大量時間,它將善於預測下一個狀態(低好奇心)。另一方面,如果它處於一個新的、未探索的狀態,將很難預測下一個狀態(高好奇心)。
使用好奇心將促使我們的智慧體偏向具有高預測誤差的轉換(在智慧體花費時間較少或動態複雜的區域中,預測誤差會更高),從而**更好地探索我們的環境**。
還有**其他好奇心計算方法**。ML-Agents 使用一種更高階的方法,稱為透過隨機網路蒸餾的好奇心。這超出了本教程的範圍,但如果你感興趣,我寫了一篇文章詳細解釋它。
< > 在 GitHub 上更新