深度強化學習課程文件
什麼是強化學習(RL)?簡要回顧
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
什麼是強化學習(RL)?簡要回顧
在強化學習中,我們構建一個能夠做出明智決策的智慧體。例如,一個學習翫影片遊戲的智慧體,或者一個透過決定購買哪些股票以及何時出售來最大化其收益的交易智慧體。
為了做出智慧決策,我們的智慧體將透過試錯與環境互動並接收獎勵(正向或負向)作為獨特的反饋來學習。
其目標是最大化其預期累積獎勵(由於獎勵假說)。
智慧體的決策過程稱為策略 π:給定一個狀態,策略將輸出一個動作或一個動作的機率分佈。也就是說,給定對環境的觀察,策略將提供智慧體應該採取的動作(或每個動作的多個機率)。
我們的目標是找到一個最優策略 π*,即能帶來最佳預期累積獎勵的策略。
為了找到這個最優策略(從而解決強化學習問題),主要有兩種強化學習方法:
- 基於策略的方法:直接訓練策略以學習給定狀態下應採取的動作。
- 基於價值的方法:訓練一個價值函式來學習哪個狀態更有價值,並使用這個價值函式來採取導致該狀態的動作。
在本單元中,我們將深入探討基於價值的方法。
< > 在 GitHub 上更新