深度強化學習課程文件
歡迎來到🤗深度強化學習課程
並獲得增強的文件體驗
開始使用
歡迎來到 🤗 深度強化學習課程
歡迎來到人工智慧領域最引人入勝的主題:深度強化學習。
本課程將從初學者到專家,為您講授深度強化學習。它完全免費且開源!
在本介紹單元中,您將
- 瞭解更多關於課程內容。
- 確定您將要走的路徑(自學或認證過程)。
- 瞭解更多關於您將要參與的AI對AI挑戰。
- 瞭解更多關於我們。
- 建立您的Hugging Face賬戶(免費)。
- 註冊我們的Discord伺服器,您可以在那裡與同學和我們(Hugging Face團隊)聊天。
讓我們開始吧!
預期目標?
在本課程中,你將
- 📖 在理論和實踐中學習深度強化學習。
- 🧑💻 學習使用著名的深度強化學習庫,如Stable Baselines3、RL Baselines3 Zoo、Sample Factory和CleanRL。
- 🤖 在獨特的環境中訓練智慧體,如SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom),以及經典環境如Space Invaders、PyBullet等。
- 💾 透過一行程式碼將您訓練好的智慧體分享到Hub,也可以從社群下載強大的智慧體。
- 🏆 參與挑戰,將您的智慧體與其他團隊的智慧體進行評估。您還將與您訓練的智慧體對戰。
- 🎓 完成80%的作業即可獲得結業證書。
以及更多!
在本課程結束時,您將從基礎知識到最先進(SOTA)方法打下堅實的基礎。
別忘了註冊課程(我們正在收集您的電子郵件,以便在每個單元釋出時向您傳送連結,並向您提供有關挑戰和更新的資訊)。
立即註冊 👉 此處
課程維護通知 🚧
請注意,此深度強化學習課程目前處於低維護狀態。但是,它仍然是學習深度強化學習理論和實踐的絕佳資源。
請記住以下幾點
單元7 (AI vs AI):此功能目前無法使用。但是,您仍然可以訓練您的智慧體踢足球並觀察其表現。
排行榜:排行榜不再執行。
除了這些,所有理論內容和實踐練習仍然完全可訪問且對學習有效。
如果您在其中一個實踐環節中遇到任何問題,請檢視問題區,社群在那裡提供了一些錯誤解決方案。
課程內容是怎樣的?
課程由以下部分組成
理論部分:您將在其中學習理論概念。
實踐部分:您將學習使用著名的深度強化學習庫,在獨特的環境中訓練您的智慧體。這些實踐部分將是Google Colab筆記本,並附帶教程影片,如果您更喜歡透過影片格式學習!
挑戰:您將讓您的智慧體在不同的挑戰中與其他智慧體競爭。還將有一個排行榜供您比較智慧體的表現。
課程大綱是什麼?
這是課程大綱
兩條路徑:選擇您自己的冒險
您可以選擇以下方式學習本課程:
- 獲得結業證書:您需要完成80%的作業。
- 獲得榮譽證書:您需要完成100%的作業。
- 作為簡單的旁聽生:您可以參與所有挑戰,並按需完成作業。
課程沒有截止日期,是自定進度的。兩條路徑完全免費。無論您選擇哪條路徑,我們都建議您遵循推薦的進度,以便與同學一起享受課程和挑戰。
您無需告知我們您選擇哪條路徑。如果您完成了80%以上的作業,您將獲得證書。
認證流程
認證過程完全免費
- 獲得結業證書:您需要完成80%的作業。
- 獲得榮譽證書:您需要完成100%的作業。
同樣,課程是自定進度的,沒有截止日期。但我們的建議是遵循推薦的進度部分。
如何充分利用課程?
為了充分利用課程,我們有一些建議
- 加入Discord學習小組:小組學習總是更容易。為此,您需要加入我們的Discord伺服器。如果您不熟悉Discord,別擔心!我們有一些工具可以幫助您瞭解它。
- 完成測驗和作業:學習的最佳方式是動手實踐和自我測試。
- 制定一個保持同步的時間表:您可以使用我們推薦的進度時間表,或者建立您自己的。
我需要什麼工具?
您只需要3樣東西
- 一臺電腦和網際網路連線。
- Google Colab(免費版):我們的大多數實踐都將使用Google Colab,免費版就足夠了。
- 一個Hugging Face賬戶:用於推送和載入模型。如果您還沒有賬戶,可以在這裡建立一個(免費)。
推薦的學習進度是怎樣的?
本課程的每個章節都設計為在1周內完成,每週大約需要3-4小時的學習時間。但是,您可以根據需要花費盡可能多的時間來完成課程。如果您想更深入地研究某個主題,我們將提供額外的資源來幫助您實現這一目標。
我們是誰
關於作者
- Thomas Simonini 是 Hugging Face 🤗 的開發者倡導者,專門從事深度強化學習。他於2018年創立了深度強化學習課程,該課程成為深度強化學習領域最受歡迎的課程之一。
關於團隊
- Omar Sanseviero 是 Hugging Face 的機器學習工程師,專注於機器學習、社群和開源的交叉領域。此前,Omar 曾在 Google 的 Assistant 和 TensorFlow Graphics 團隊擔任軟體工程師。他來自秘魯,喜歡羊駝 🦙。
- Sayak Paul 是 Hugging Face 的開發者倡導工程師。他專注於表示學習領域(自監督、半監督、模型魯棒性)。他喜歡看犯罪和動作驚悚片 🔪。
本課程中有哪些挑戰?
在這個新版本的課程中,您有兩種型別的挑戰
- 一個排行榜,用於比較您的智慧體與其他同學的智慧體的表現。
- AI 對 AI 挑戰,您可以訓練您的智慧體並與其他同學的智慧體競爭。
我還有問題
請在我們的Discord伺服器 #rl-discussions中提出您的問題。
< > 在 GitHub 上更新