深度強化學習課程文件

詞彙表

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

簡介什麼是強化學習？強化學習框架任務型別探索/利用權衡解決強化學習問題的兩種主要方法深度強化學習中的“深度” 總結詞彙表實戰測驗結論延伸閱讀

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

詞彙表

這是一個由社群建立的詞彙表。歡迎貢獻！

智慧體（Agent）

智慧體透過與環境的**試錯學習，並從環境中獲得獎勵和懲罰**來做出決策。

環境

環境是一個模擬世界，**智慧體可以透過與它互動來學習**。

馬爾可夫性質

它意味著我們智慧體採取的行動**僅取決於當前狀態，而與過去的狀態和行動無關**。

觀察/狀態

狀態：對世界狀態的完整描述。
觀察：對環境/世界狀態的部分描述。

行動

離散行動：有限數量的行動，例如左、右、上、下。
連續行動：無限可能的行動；例如，在自動駕駛汽車的情況下，駕駛場景有無限可能的行動發生。

獎勵和折扣

獎勵：強化學習中的基本因素。告訴智慧體所採取的行動是好還是壞。
強化學習演算法側重於最大化**累積獎勵**。
獎勵假設：強化學習問題可以表述為（累積）回報的最大化。
折扣：之所以進行折扣，是因為在開始時獲得的獎勵更有可能發生，因為它們比長期獎勵更可預測。

任務

回合制：有起始點和結束點。
連續：有起始點但沒有結束點。

探索與利用權衡

探索：透過嘗試隨機行動並從環境中接收反饋/回報/獎勵來探索環境。
利用：利用我們對環境的瞭解以獲得最大獎勵。
探索與利用權衡：它平衡了我們想要**探索**環境的程度以及想要**利用**我們對環境瞭解的程度。

策略（Policy）

策略：被稱為智慧體的大腦。它告訴我們給定狀態下應該採取什麼行動。
最優策略：當智慧體根據它行動時，**最大化預期回報**的策略。它透過訓練學習得到。

基於策略的方法：

解決強化學習問題的一種方法。
在這種方法中，策略直接被學習。
它將每個狀態對映到該狀態下最佳的相應行動。或者對映到該狀態下可能行動的機率分佈。

基於價值的方法：

解決強化學習問題的另一種方法。
這裡，我們不訓練策略，而是訓練一個**價值函式**，它將每個狀態對映到在該狀態下的預期價值。

歡迎貢獻 🤗

如果您想改進本課程，可以提交拉取請求。

本詞彙表的製作得益於

< > 在 GitHub 上更新

←總結實戰→

© . This site is unofficial and not affiliated with Hugging Face, Inc.