深度強化學習課程文件
總結
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
總結
內容很多!我們來總結一下
強化學習是一種從行動中學習的計算方法。我們構建一個智慧體,它**透過試錯與環境互動**並接收獎勵(負向或正向)作為反饋來學習。
任何強化學習智慧體的目標都是最大化其期望累積獎勵(也稱為期望回報),因為強化學習基於**獎勵假設**,即**所有目標都可以描述為期望累積獎勵的最大化。**
強化學習過程是一個迴圈,它輸出**狀態、行動、獎勵和下一個狀態**的序列。
為了計算期望累積獎勵(期望回報),我們對獎勵進行折扣:較早(在遊戲開始時)獲得的獎勵**更有可能發生,因為它們比長期未來的獎勵更可預測。**
要解決強化學習問題,您需要**找到一個最優策略**。策略是智慧體的“大腦”,它會告訴我們**在給定狀態下應該採取什麼行動。**最優策略是**能夠使期望回報最大化的行動策略。**
有兩種方法可以找到最優策略
- 透過直接訓練策略:**基於策略的方法。**
- 透過訓練一個價值函式,該函式告訴我們智慧體在每個狀態下將獲得的期望回報,並使用該函式來定義我們的策略:**基於價值的方法。**
最後,我們談到深度強化學習,因為我們引入了**深度神經網路來估計要採取的行動(基於策略的方法)或估計狀態的價值(基於價值的方法)**,因此得名“深度”。