詞彙表

這是一個社群建立的詞彙表。歡迎貢獻！

深度Q學習（Deep Q-Learning）：一種基於價值的深度強化學習演算法，使用深度神經網路來近似給定狀態下動作的Q值。深度Q學習的目標是透過學習動作價值來找到最大化預期累積獎勵的最優策略。
基於價值的方法（Value-based methods）：強化學習方法，透過估計價值函式作為找到最優策略的中間步驟。
基於策略的方法（Policy-based methods）：強化學習方法，直接學習近似最優策略，而不學習價值函式。實際上，它們輸出動作的機率分佈。

與基於價值的方法相比，使用策略梯度方法的優點包括：
- 整合簡便：無需儲存動作值；
- 能夠學習隨機策略：智慧體探索狀態空間，而不是總是採取相同的軌跡，並避免了感知混疊問題；
- 在高維和連續動作空間中有效；以及
- 改進了收斂特性。
策略梯度（Policy Gradient）：基於策略方法的一個子集，其目標是使用梯度上升來最大化引數化策略的效能。策略梯度的目標是透過調整策略來控制動作的機率分佈，使好的動作（最大化回報的動作）在未來被更頻繁地取樣。
蒙特卡洛強化（Monte Carlo Reinforce）：一種策略梯度演算法，使用整個回合的估計回報來更新策略引數。

如果您想改進本課程，可以提交拉取請求。

本詞彙表的製作得益於

深度強化學習課程