深度強化學習課程文件

測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

測驗

學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找到需要鞏固知識的地方

Q1: 什麼是強化學習?

解決方案

強化學習是一個解決控制任務(也稱為決策問題)的框架,透過構建智慧體,使其透過試錯與環境互動,並接收獎勵(正或負)作為獨特反饋來學習。

Q2: 定義強化學習迴圈

Exercise RL Loop

每一步

  • 我們的智慧體從環境中接收__
  • 基於那個__,智慧體採取一個__
  • 我們的智慧體將向右移動
  • 環境進入一個__
  • 環境給智慧體一個__

Q3: 狀態和觀察有什麼區別?

Q4: 任務是強化學習問題的一個例項。任務的兩種型別是什麼?

Q5: 什麼是探索/利用權衡?

解決方案

在強化學習中,我們需要平衡探索環境的程度和利用我們所瞭解的環境資訊的程度

  • 探索是透過嘗試隨機動作來探索環境,以獲取更多關於環境的資訊

  • 利用利用已知資訊來最大化獎勵

Exploration Exploitation Tradeoff

Q6: 什麼是策略?

解決方案
  • 策略π是我們的智慧體的大腦。它是一個函式,告訴我們根據所處狀態採取什麼行動。因此,它定義了智慧體在給定時間的行為。
Policy

Q7: 什麼是基於價值的方法?

解決方案
  • 基於價值的方法是解決強化學習問題的主要方法之一。
  • 在基於價值的方法中,我們不訓練策略函式,而是訓練一個價值函式,將狀態對映到處於該狀態的預期價值

Q8: 什麼是基於策略的方法?

解決方案
  • 基於策略的方法中,我們直接學習一個策略函式
  • 這個策略函式將從每個狀態對映到該狀態下的最佳相應動作。或者在該狀態下所有可能動作的機率分佈

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,花些時間再次閱讀本章以鞏固(😏)你的知識,但不用擔心:在課程中我們會再次回顧這些概念,你將透過實操來鞏固你的理論知識

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.