深度強化學習課程文件
Q-Learning 回顧
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
Q-Learning 回顧
Q-Learning 是一種強化學習演算法,它透過訓練
一個 Q-函式,一個動作價值函式,該函式在內部記憶體中透過一個 Q-表 編碼,包含所有狀態-動作對的值。
給定一個狀態和動作,我們的 Q-函式將會在其 Q-表中搜索相應的值。
當訓練完成後,我們擁有一個最優的 Q-函式,或者等價地說,一個最優的 Q-表。
如果我們擁有一個最優的 Q-函式,我們就擁有一個最優策略,因為我們知道每個狀態下要採取的最佳動作。
但是,在開始時,我們的 Q-表是無用的,因為它為每個狀態-動作對提供了任意值(大多數情況下,我們將 Q-表初始化為 0)。但是,隨著我們探索環境並更新 Q-表,它將提供越來越好的近似。
這是 Q-Learning 的虛擬碼:
< > 在 GitHub 上更新