深度強化學習課程文件
詞彙表
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
詞彙表
這是一個由社群建立的詞彙表。歡迎貢獻!
智慧體(Agent)
智慧體透過與環境的**試錯學習,並從環境中獲得獎勵和懲罰**來做出決策。
環境
環境是一個模擬世界,**智慧體可以透過與它互動來學習**。
馬爾可夫性質
它意味著我們智慧體採取的行動**僅取決於當前狀態,而與過去的狀態和行動無關**。
觀察/狀態
- 狀態:對世界狀態的完整描述。
- 觀察:對環境/世界狀態的部分描述。
行動
- 離散行動:有限數量的行動,例如左、右、上、下。
- 連續行動:無限可能的行動;例如,在自動駕駛汽車的情況下,駕駛場景有無限可能的行動發生。
獎勵和折扣
- 獎勵:強化學習中的基本因素。告訴智慧體所採取的行動是好還是壞。
- 強化學習演算法側重於最大化**累積獎勵**。
- 獎勵假設:強化學習問題可以表述為(累積)回報的最大化。
- 折扣:之所以進行折扣,是因為在開始時獲得的獎勵更有可能發生,因為它們比長期獎勵更可預測。
任務
- 回合制:有起始點和結束點。
- 連續:有起始點但沒有結束點。
探索與利用權衡
- 探索:透過嘗試隨機行動並從環境中接收反饋/回報/獎勵來探索環境。
- 利用:利用我們對環境的瞭解以獲得最大獎勵。
- 探索與利用權衡:它平衡了我們想要**探索**環境的程度以及想要**利用**我們對環境瞭解的程度。
策略(Policy)
- 策略:被稱為智慧體的大腦。它告訴我們給定狀態下應該採取什麼行動。
- 最優策略:當智慧體根據它行動時,**最大化預期回報**的策略。它透過訓練學習得到。
基於策略的方法:
- 解決強化學習問題的一種方法。
- 在這種方法中,策略直接被學習。
- 它將每個狀態對映到該狀態下最佳的相應行動。或者對映到該狀態下可能行動的機率分佈。
基於價值的方法:
- 解決強化學習問題的另一種方法。
- 這裡,我們不訓練策略,而是訓練一個**價值函式**,它將每個狀態對映到在該狀態下的預期價值。
歡迎貢獻 🤗
如果您想改進本課程,可以提交拉取請求。
本詞彙表的製作得益於
< > 在 GitHub 上更新