深度強化學習課程文件

歡迎來到 🤗 深度強化學習課程

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

歡迎來到 🤗 深度強化學習課程

Deep RL Course thumbnail

歡迎來到人工智慧中最引人入勝的主題:深度強化學習

本課程將從初學者到專家帶領您學習深度強化學習。本課程完全免費且開源!

在本介紹單元中,您將會

  • 進一步了解課程內容
  • 確定您將走的學習路徑 (可選擇旁聽或認證流程)。
  • 進一步了解您將參與的 AI 對戰 AI 挑戰
  • 進一步了解我們
  • 建立您的 Hugging Face 帳號 (免費)。
  • 加入我們的 Discord 伺服器,在這裡您可以與同學和我們 (Hugging Face 團隊) 聊天。

讓我們開始吧!

課程內容預期?

在本課程中,您將:

  • 📖 從理論與實作兩方面學習深度強化學習。
  • 🧑‍💻 學習使用知名的深度強化學習函式庫,例如 Stable Baselines3RL Baselines3 ZooSample FactoryCleanRL
  • 🤖 在獨特的環境中訓練代理人,例如 SnowballFightHuggy the Doggo 🐶VizDoom (Doom) 以及經典環境,例如 Space InvadersPyBullet 等等。
  • 💾 透過一行程式碼將您訓練好的代理人分享至 Hub,也可以從社群下載強大的代理人。
  • 🏆 參與挑戰,您將能評估您的代理人與其他團隊的表現。您也將能與您訓練的代理人對戰。
  • 🎓 只要完成 80% 的作業,即可獲得結業證書

以及更多內容!

在本課程結束時,您將從基礎到最先進 (state-of-the-art, SOTA) 的方法,打下堅實的基礎

別忘了報名課程 (我們將會收集您的電子郵件,以便在每個單元發布時向您發送連結,並提供有關挑戰和更新的資訊)。

報名 👉 這裡

課程維護通知 🚧

請注意,本深度強化學習課程目前處於低度維護狀態。然而,它仍然是學習深度強化學習理論和實踐的絕佳資源

請注意以下幾點

  • 單元 7 (AI 對戰 AI) :此功能目前無法使用。不過,您仍然可以訓練您的代理人踢足球並觀察其表現。

  • 排行榜 :排行榜已停止運作。

除了上述幾點,所有理論內容和實踐練習仍然完全可用且對學習有效。

如果您在實作練習中遇到任何問題,請查看問題討論區,社群成員會提供一些錯誤的解決方案

課程內容是什麼?

課程包含:

  • 理論部分:在這裡您將學習理論概念

  • 實作練習:在這裡您將學習使用知名的深度強化學習函式庫,在獨特的環境中訓練您的代理人。這些實作練習將以 Google Colab 筆記本搭配教學影片的形式呈現,如果您偏好透過影片學習!

  • 挑戰:您將讓您的代理人與其他代理人在不同的挑戰中競爭。也將有一個排行榜,供您比較代理人的表現。

課程大綱是什麼?

這是課程大綱

Syllabus Part 1 Syllabus Part 2

兩種學習路徑:選擇您的冒險

Two paths

您可以選擇以下方式之一來修讀本課程

  • 獲得結業證書:您需要完成 80% 的作業。
  • 獲得榮譽證書:您需要完成 100% 的作業。
  • 旁聽:您可以參與所有挑戰,並根據意願完成作業。

沒有截止日期,本課程採自主學習。這兩種路徑都是完全免費的。無論您選擇哪條路徑,我們都建議您按照建議的進度,與同學們一起享受課程和挑戰

您無需告知我們您的選擇。如果您完成超過 80% 的作業,您將獲得證書。

認證流程

認證流程完全免費

  • 獲得結業證書:您需要完成 80% 的作業。
  • 獲得榮譽證書:您需要完成 100% 的作業。

再強調一次,由於課程是自主學習,因此沒有截止日期。但我們建議您按照建議的學習進度

Course certification

如何充分利用本課程?

為了充分利用本課程,我們有一些建議

  1. 加入 Discord 上的學習小組:小組學習總是更輕鬆。為此,您需要加入我們的 Discord 伺服器。如果您不熟悉 Discord,別擔心!我們有一些工具可以幫助您學習如何使用它。
  2. 完成測驗和作業:最好的學習方式是親自動手並測試自己。
  3. 制定一個學習進度表以保持同步:您可以使用下方建議的進度表,或自行建立。
Course advice

我需要哪些工具?

您只需要 3 樣東西

  • 一台電腦並連接網際網路。
  • Google Colab (免費版):我們大部分的實作練習都將使用 Google Colab,免費版就足夠了。
  • 一個 Hugging Face 帳號:用於推送和載入模型。如果您還沒有帳號,可以在這裡建立一個 (免費)。
Course tools needed

建議的學習進度是什麼?

本課程的每個章節都設計為在 1 週內完成,每週大約需要 3-4 小時的學習時間。不過,您可以根據需要花費任何時間來完成課程。如果您想更深入地研究某個主題,我們將提供額外資源來幫助您達成目標。

關於我們

關於作者

  • Thomas Simonini 是 Hugging Face 🤗 的開發者推廣大使,專精於深度強化學習。他於 2018 年創立了深度強化學習課程,該課程成為深度強化學習領域中最受歡迎的課程之一。

關於團隊

  • Omar Sanseviero 是 Hugging Face 的機器學習工程師,專注於機器學習、社群和開源的交集領域。此前,Omar 曾在 Google 擔任軟體工程師,負責 Assistant 和 TensorFlow Graphics 團隊。他來自秘魯,喜歡羊駝 🦙。
  • Sayak Paul 是 Hugging Face 的開發者推廣工程師。他對表徵學習 (自我監督、半監督、模型穩健性) 領域感興趣。他喜歡看犯罪和動作驚悚片 🔪。

本課程中有哪些挑戰?

在本課程的新版本中,您有兩種挑戰類型

  • 一個排行榜,用來比較您的代理人與其他同學的表現。
  • AI 對戰 AI 挑戰,您可以在其中訓練您的代理人並與其他同學的代理人競爭。
Challenges

我還有問題

請在我們的 Discord 伺服器 #rl-discussions 頻道中提問。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.