深度強化學習課程文件
歡迎來到 🤗 深度強化學習課程
並獲得增強的文件體驗
開始使用
歡迎來到 🤗 深度強化學習課程
歡迎來到人工智慧最引人入勝的主題:深度強化學習。
本課程將從初學者到專家,向您教授深度強化學習。它是完全免費和開源的!
在本介紹單元中,您將:
- 瞭解更多關於課程內容的資訊。
- 確定您將要走的路徑(自學或認證過程)。
- 瞭解更多關於您將參與的AI對AI挑戰。
- 瞭解更多關於我們的資訊。
- 建立您的Hugging Face賬戶(免費)。
- 註冊我們的Discord伺服器,您可以在這裡與您的同學和我們(Hugging Face團隊)聊天。
讓我們開始吧!
您會學到什麼?
在本課程中,你將
- 📖 在理論和實踐中學習深度強化學習。
- 🧑💻 學習使用著名的深度強化學習庫,例如Stable Baselines3、RL Baselines3 Zoo、Sample Factory和CleanRL。
- 🤖 在獨特環境中訓練智慧體,例如SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom),以及Space Invaders、PyBullet等經典環境。
- 💾 僅用一行程式碼即可將您訓練好的智慧體分享到Hub,並從社群下載強大的智慧體。
- 🏆 參與挑戰賽,您將評估您的智慧體與其他團隊的智慧體。您還將與您訓練的智慧體對戰。
- 🎓 透過完成80%的作業,獲得結業證書。
以及更多!
在本課程結束時,您將從基礎到SOTA(最先進)方法獲得堅實的基礎。
別忘了註冊課程(我們正在收集您的電子郵件,以便在每個單元釋出時向您傳送連結,並向您提供有關挑戰和更新的資訊)。
點選此處註冊 👉 這裡
課程維護通知 🚧
請注意,本深度強化學習課程目前處於低維護狀態。然而,它仍然是學習深度強化學習理論和實踐的絕佳資源。
請記住以下幾點:
單元7(AI對AI):此功能目前無法使用。但是,您仍然可以訓練您的智慧體踢足球並觀察其表現。
排行榜:排行榜已不再執行。
除了這些之外,所有理論內容和實踐練習仍然完全可用且對學習有效。
如果您在任何一項動手實踐中遇到問題,請檢視問題區,社群會在那裡提供一些錯誤解決方案。
課程是什麼樣的?
課程由以下部分組成
理論部分:您將在其中學習理論概念。
動手實踐:您將學習使用著名的深度強化學習庫在獨特環境中訓練您的智慧體。這些動手實踐將是Google Colab筆記本,並附有配套的教程影片,如果您喜歡影片學習格式!
挑戰賽:您將讓您的智慧體與其他智慧體在不同的挑戰賽中競爭。還有一個排行榜供您比較智慧體的表現。
課程大綱是什麼?
這是課程大綱
兩種路徑:選擇您自己的冒險
您可以選擇以下方式完成本課程:
- 獲得結業證書:您需要完成80%的作業。
- 獲得榮譽證書:您需要完成100%的作業。
- 作為旁聽生:您可以參與所有挑戰並根據需要完成作業。
沒有截止日期,課程是自定進度的。這兩種路徑都是完全免費的。無論您選擇哪種路徑,我們都建議您遵循推薦的進度,以便與您的同學一起享受課程和挑戰。
您無需告訴我們您選擇哪種路徑。如果您完成80%以上的作業,您將獲得證書。
認證流程
認證過程完全免費
- 獲得結業證書:您需要完成80%的作業。
- 獲得榮譽證書:您需要完成100%的作業。
再次強調,由於課程是自定進度的,所以沒有截止日期。但我們的建議是遵循推薦的進度部分。
如何最大限度地利用課程?
為了最大限度地利用本課程,我們有一些建議:
- 加入Discord學習小組:小組學習總是更容易。為此,您需要加入我們的 Discord 伺服器。如果您是 Discord 新手,別擔心!我們有一些工具可以幫助您瞭解它。
- 完成測驗和作業:最好的學習方式是親自動手並自我測試。
- 制定一個時間表以保持同步:您可以使用我們下面推薦的進度時間表,或者建立您自己的。
我需要哪些工具?
您只需要3樣東西
- 一臺電腦和網際網路連線。
- Google Colab(免費版):我們的大部分實踐課程都將使用 Google Colab,免費版就足夠了。
- 一個Hugging Face 賬戶:用於推送和載入模型。如果您還沒有賬戶,可以在此處建立一個(免費)。
推薦的學習進度是怎樣的?
本課程的每個章節都旨在在1周內完成,每週大約需要3-4小時的學習時間。然而,您可以根據需要花盡可能多的時間來完成課程。如果您想更深入地研究某個主題,我們將提供額外的資源來幫助您實現這一目標。
我們是誰
關於作者
- Thomas Simonini 是 Hugging Face 🤗 的開發者倡導者,專注於深度強化學習。他於2018年創立了深度強化學習課程,該課程成為深度強化學習領域使用最廣泛的課程之一。
關於團隊
- Omar Sanseviero 是 Hugging Face 的機器學習工程師,主要從事機器學習、社群和開源的交叉領域。此前,Omar 在 Google 擔任軟體工程師,供職於 Assistant 和 TensorFlow Graphics 團隊。他來自秘魯,喜歡羊駝 🦙。
- Sayak Paul 是 Hugging Face 的開發者倡導工程師。他主要研究表徵學習領域(自監督、半監督、模型魯棒性)。他喜歡看犯罪和動作驚悚片 🔪。
本課程有哪些挑戰?
本課程的新版本有兩種型別的挑戰
- 排行榜可將您的智慧體效能與班上其他同學的智慧體進行比較。
- AI vs. AI 挑戰,您可以在其中訓練您的智慧體並與同學的智慧體競爭。
我還有問題
請在我們的discord 伺服器 #rl-discussions中提出您的問題。
< > 在 GitHub 上更新