深度強化學習課程文件
測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
測驗
學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找到需要鞏固知識的地方。
Q1: 什麼是強化學習?
解決方案
強化學習是一個解決控制任務(也稱為決策問題)的框架,透過構建智慧體,使其透過試錯與環境互動,並接收獎勵(正或負)作為獨特反饋來學習。
Q2: 定義強化學習迴圈
每一步
- 我們的智慧體從環境中接收__
- 基於那個__,智慧體採取一個__
- 我們的智慧體將向右移動
- 環境進入一個__
- 環境給智慧體一個__
Q3: 狀態和觀察有什麼區別?
Q4: 任務是強化學習問題的一個例項。任務的兩種型別是什麼?
Q5: 什麼是探索/利用權衡?
解決方案
在強化學習中,我們需要平衡探索環境的程度和利用我們所瞭解的環境資訊的程度。
探索是透過嘗試隨機動作來探索環境,以獲取更多關於環境的資訊。
利用是利用已知資訊來最大化獎勵。

Q6: 什麼是策略?
解決方案
- 策略π是我們的智慧體的大腦。它是一個函式,告訴我們根據所處狀態採取什麼行動。因此,它定義了智慧體在給定時間的行為。

Q7: 什麼是基於價值的方法?
解決方案
- 基於價值的方法是解決強化學習問題的主要方法之一。
- 在基於價值的方法中,我們不訓練策略函式,而是訓練一個價值函式,將狀態對映到處於該狀態的預期價值。
Q8: 什麼是基於策略的方法?
解決方案
- 在基於策略的方法中,我們直接學習一個策略函式。
- 這個策略函式將從每個狀態對映到該狀態下的最佳相應動作。或者在該狀態下所有可能動作的機率分佈。
恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,花些時間再次閱讀本章以鞏固(😏)你的知識,但不用擔心:在課程中我們會再次回顧這些概念,你將透過實操來鞏固你的理論知識。
< > 在 GitHub 上更新