在 Hugging Face 上使用 Stable-Baselines3

stable-baselines3 是 PyTorch 中強化學習演算法的可靠實現集合。

探索 Hub 中的 Stable-Baselines3

您可以透過過濾模型頁面左側來查詢 Stable-Baselines3 模型。

Hub 上的所有模型都附帶了有用的功能

一個自動生成的模型卡片，包含描述、訓練配置等資訊。
有助於發現的元資料標籤。
與其他模型進行比較的評估結果。
一個影片小部件，您可以在其中觀看您的智慧體執行任務。

安裝庫

要安裝 stable-baselines3 庫，您需要安裝兩個包

stable-baselines3: Stable-Baselines3 庫。
huggingface-sb3: 從 Hub 載入和上傳 Stable-Baselines3 模型的額外程式碼。

pip install stable-baselines3
pip install huggingface-sb3

使用現有模型

您可以使用 load_from_hub 函式從 Hub 簡單下載模型

checkpoint = load_from_hub(
    repo_id="sb3/demo-hf-CartPole-v1",
    filename="ppo-CartPole-v1.zip",
)

您需要定義兩個引數

--repo-id: 您要下載的 Hugging Face 倉庫名稱。
--filename: 您要下載的檔案。

分享您的模型

您可以使用兩個不同的函式輕鬆上傳模型

package_to_hub(): 儲存模型，評估模型，生成模型卡片，並錄製智慧體回放影片，然後將完整的倉庫推送到 Hub。

package_to_hub(model=model, 
               model_name="ppo-LunarLander-v2",
               model_architecture="PPO",
               env_id=env_id,
               eval_env=eval_env,
               repo_id="ThomasSimonini/ppo-LunarLander-v2",
               commit_message="Test commit")

您需要定義七個引數

--model: 您訓練好的模型。
--model_architecture: 您的模型架構名稱（DQN、PPO、A2C、SAC…）。
--env_id: 環境名稱。
--eval_env: 用於評估智慧體的環境。
--repo-id: 您要建立或更新的 Hugging Face 倉庫名稱。格式為 <您的 huggingface 使用者名稱>/<倉庫名稱>。
--commit-message.
--filename: 您要推送到 Hub 的檔案。

push_to_hub(): 簡單地將檔案推送到 Hub

push_to_hub(
    repo_id="ThomasSimonini/ppo-LunarLander-v2",
    filename="ppo-LunarLander-v2.zip",
    commit_message="Added LunarLander-v2 model trained with PPO",
)

您需要定義三個引數

--repo-id: 您要建立或更新的 Hugging Face 倉庫名稱。格式為 <您的 huggingface 使用者名稱>/<倉庫名稱>。
--filename: 您要推送到 Hub 的檔案。
--commit-message.

額外資源

Hugging Face Stable-Baselines3 文件
Stable-Baselines3 文件

< > 在 GitHub 上更新