深度強化學習課程文件

Q-Learning 回顧

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Q-Learning 回顧

Q-Learning 是一種強化學習演算法,它透過訓練

  • 一個 Q-函式,一個動作價值函式,該函式在內部記憶體中透過一個 Q-表 編碼,包含所有狀態-動作對的值。

  • 給定一個狀態和動作,我們的 Q-函式將會在其 Q-表中搜索相應的值。

Q function
  • 當訓練完成後,我們擁有一個最優的 Q-函式,或者等價地說,一個最優的 Q-表。

  • 如果我們擁有一個最優的 Q-函式,我們就擁有一個最優策略,因為我們知道每個狀態下要採取的最佳動作。

Link value policy

但是,在開始時,我們的 Q-表是無用的,因為它為每個狀態-動作對提供了任意值(大多數情況下,我們將 Q-表初始化為 0)。但是,隨著我們探索環境並更新 Q-表,它將提供越來越好的近似。

q-learning.jpeg

這是 Q-Learning 的虛擬碼:

Q-Learning < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.