深度強化學習課程文件
歡迎來到 🤗 深度強化學習課程
並獲得增強的文件體驗
開始使用
歡迎來到 🤗 深度強化學習課程
歡迎來到人工智慧中最引人入勝的主題:深度強化學習。
本課程將從初學者到專家帶領您學習深度強化學習。本課程完全免費且開源!
在本介紹單元中,您將會
- 進一步了解課程內容。
- 確定您將走的學習路徑 (可選擇旁聽或認證流程)。
- 進一步了解您將參與的 AI 對戰 AI 挑戰。
- 進一步了解我們。
- 建立您的 Hugging Face 帳號 (免費)。
- 加入我們的 Discord 伺服器,在這裡您可以與同學和我們 (Hugging Face 團隊) 聊天。
讓我們開始吧!
課程內容預期?
在本課程中,您將:
- 📖 從理論與實作兩方面學習深度強化學習。
- 🧑💻 學習使用知名的深度強化學習函式庫,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。
- 🤖 在獨特的環境中訓練代理人,例如 SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom) 以及經典環境,例如 Space Invaders、PyBullet 等等。
- 💾 透過一行程式碼將您訓練好的代理人分享至 Hub,也可以從社群下載強大的代理人。
- 🏆 參與挑戰,您將能評估您的代理人與其他團隊的表現。您也將能與您訓練的代理人對戰。
- 🎓 只要完成 80% 的作業,即可獲得結業證書。
以及更多內容!
在本課程結束時,您將從基礎到最先進 (state-of-the-art, SOTA) 的方法,打下堅實的基礎。
別忘了報名課程 (我們將會收集您的電子郵件,以便在每個單元發布時向您發送連結,並提供有關挑戰和更新的資訊)。
報名 👉 這裡
課程維護通知 🚧
請注意,本深度強化學習課程目前處於低度維護狀態。然而,它仍然是學習深度強化學習理論和實踐的絕佳資源。
請注意以下幾點
單元 7 (AI 對戰 AI) :此功能目前無法使用。不過,您仍然可以訓練您的代理人踢足球並觀察其表現。
排行榜 :排行榜已停止運作。
除了上述幾點,所有理論內容和實踐練習仍然完全可用且對學習有效。
如果您在實作練習中遇到任何問題,請查看問題討論區,社群成員會提供一些錯誤的解決方案。
課程內容是什麼?
課程包含:
理論部分:在這裡您將學習理論概念。
實作練習:在這裡您將學習使用知名的深度強化學習函式庫,在獨特的環境中訓練您的代理人。這些實作練習將以 Google Colab 筆記本搭配教學影片的形式呈現,如果您偏好透過影片學習!
挑戰:您將讓您的代理人與其他代理人在不同的挑戰中競爭。也將有一個排行榜,供您比較代理人的表現。
課程大綱是什麼?
這是課程大綱
兩種學習路徑:選擇您的冒險
您可以選擇以下方式之一來修讀本課程
- 獲得結業證書:您需要完成 80% 的作業。
- 獲得榮譽證書:您需要完成 100% 的作業。
- 旁聽:您可以參與所有挑戰,並根據意願完成作業。
沒有截止日期,本課程採自主學習。這兩種路徑都是完全免費的。無論您選擇哪條路徑,我們都建議您按照建議的進度,與同學們一起享受課程和挑戰。
您無需告知我們您的選擇。如果您完成超過 80% 的作業,您將獲得證書。
認證流程
認證流程完全免費。
- 獲得結業證書:您需要完成 80% 的作業。
- 獲得榮譽證書:您需要完成 100% 的作業。
再強調一次,由於課程是自主學習,因此沒有截止日期。但我們建議您按照建議的學習進度。
如何充分利用本課程?
為了充分利用本課程,我們有一些建議
- 加入 Discord 上的學習小組:小組學習總是更輕鬆。為此,您需要加入我們的 Discord 伺服器。如果您不熟悉 Discord,別擔心!我們有一些工具可以幫助您學習如何使用它。
- 完成測驗和作業:最好的學習方式是親自動手並測試自己。
- 制定一個學習進度表以保持同步:您可以使用下方建議的進度表,或自行建立。
我需要哪些工具?
您只需要 3 樣東西
- 一台電腦並連接網際網路。
- Google Colab (免費版):我們大部分的實作練習都將使用 Google Colab,免費版就足夠了。
- 一個 Hugging Face 帳號:用於推送和載入模型。如果您還沒有帳號,可以在這裡建立一個 (免費)。
建議的學習進度是什麼?
本課程的每個章節都設計為在 1 週內完成,每週大約需要 3-4 小時的學習時間。不過,您可以根據需要花費任何時間來完成課程。如果您想更深入地研究某個主題,我們將提供額外資源來幫助您達成目標。
關於我們
關於作者
- Thomas Simonini 是 Hugging Face 🤗 的開發者推廣大使,專精於深度強化學習。他於 2018 年創立了深度強化學習課程,該課程成為深度強化學習領域中最受歡迎的課程之一。
關於團隊
- Omar Sanseviero 是 Hugging Face 的機器學習工程師,專注於機器學習、社群和開源的交集領域。此前,Omar 曾在 Google 擔任軟體工程師,負責 Assistant 和 TensorFlow Graphics 團隊。他來自秘魯,喜歡羊駝 🦙。
- Sayak Paul 是 Hugging Face 的開發者推廣工程師。他對表徵學習 (自我監督、半監督、模型穩健性) 領域感興趣。他喜歡看犯罪和動作驚悚片 🔪。
本課程中有哪些挑戰?
在本課程的新版本中,您有兩種挑戰類型
- 一個排行榜,用來比較您的代理人與其他同學的表現。
- AI 對戰 AI 挑戰,您可以在其中訓練您的代理人並與其他同學的代理人競爭。
我還有問題
請在我們的 Discord 伺服器 #rl-discussions 頻道中提問。
< > 在 GitHub 上更新