深度強化學習課程文件

詞彙表

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

詞彙表

這是一個由社群建立的詞彙表。歡迎貢獻!

智慧體(Agent)

智慧體透過與環境的**試錯學習,並從環境中獲得獎勵和懲罰**來做出決策。

環境

環境是一個模擬世界,**智慧體可以透過與它互動來學習**。

馬爾可夫性質

它意味著我們智慧體採取的行動**僅取決於當前狀態,而與過去的狀態和行動無關**。

觀察/狀態

  • 狀態:對世界狀態的完整描述。
  • 觀察:對環境/世界狀態的部分描述。

行動

  • 離散行動:有限數量的行動,例如左、右、上、下。
  • 連續行動:無限可能的行動;例如,在自動駕駛汽車的情況下,駕駛場景有無限可能的行動發生。

獎勵和折扣

  • 獎勵:強化學習中的基本因素。告訴智慧體所採取的行動是好還是壞。
  • 強化學習演算法側重於最大化**累積獎勵**。
  • 獎勵假設:強化學習問題可以表述為(累積)回報的最大化。
  • 折扣:之所以進行折扣,是因為在開始時獲得的獎勵更有可能發生,因為它們比長期獎勵更可預測。

任務

  • 回合制:有起始點和結束點。
  • 連續:有起始點但沒有結束點。

探索與利用權衡

  • 探索:透過嘗試隨機行動並從環境中接收反饋/回報/獎勵來探索環境。
  • 利用:利用我們對環境的瞭解以獲得最大獎勵。
  • 探索與利用權衡:它平衡了我們想要**探索**環境的程度以及想要**利用**我們對環境瞭解的程度。

策略(Policy)

  • 策略:被稱為智慧體的大腦。它告訴我們給定狀態下應該採取什麼行動。
  • 最優策略:當智慧體根據它行動時,**最大化預期回報**的策略。它透過訓練學習得到。

基於策略的方法:

  • 解決強化學習問題的一種方法。
  • 在這種方法中,策略直接被學習。
  • 它將每個狀態對映到該狀態下最佳的相應行動。或者對映到該狀態下可能行動的機率分佈。

基於價值的方法:

  • 解決強化學習問題的另一種方法。
  • 這裡,我們不訓練策略,而是訓練一個**價值函式**,它將每個狀態對映到在該狀態下的預期價值。

歡迎貢獻 🤗

如果您想改進本課程,可以提交拉取請求。

本詞彙表的製作得益於

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.