使用 NVIDIA DGX Cloud 上的 H100 GPU 輕鬆訓練模型
更新:此服務已於 2025 年 4 月 10 日起棄用,不再可用。
今天,我們很高興地宣佈推出 Train on DGX Cloud,這是一項 Hugging Face Hub 上的新服務,面向企業版 Hub 組織開放。Train on DGX Cloud 使得使用 NVIDIA DGX Cloud 的加速計算基礎設施輕鬆使用開放模型成為可能。我們共同構建了 Train on DGX Cloud,以便企業版 Hub 使用者可以透過 Hugging Face Hub 內部的幾次點選,輕鬆訪問最新的 NVIDIA H100 Tensor Core GPU,對 Llama、Mistral 和 Stable Diffusion 等流行的生成式 AI 模型進行微調。

不再缺乏 GPU
這項新體驗擴充套件了我們去年宣佈的戰略合作關係,旨在簡化在 NVIDIA 加速計算平臺上訓練和部署開放生成式 AI 模型。開發者和組織面臨的主要問題之一是 GPU 資源的稀缺性,以及編寫、測試和除錯 AI 模型訓練指令碼耗時耗力的工作。Train with DGX Cloud 提供了一個簡單的解決方案來應對這些挑戰,提供即時訪問 NVIDIA GPU 的能力,首先是 NVIDIA DGX Cloud 上的 H100。此外,Train with DGX Cloud 提供了由 Hugging Face AutoTrain 和 Hugging Face Spaces 支援的簡單無程式碼訓練作業建立體驗。
企業版 Hub 組織可以為其團隊提供對強大 NVIDIA GPU 的即時訪問,只需按訓練作業所使用的計算例項的分鐘數付費。
“Train on DGX Cloud 是訓練生成式 AI 模型最簡單、最快速、最易訪問的方式,它結合了即時訪問強大 GPU、按使用付費和無程式碼訓練,”Hugging Face AutoTrain 的建立者 Abhishek Thakur 說。“這將徹底改變各地資料科學家的工作方式!”
NVIDIA DGX Cloud 副總裁 Alexis Bjorlin 表示:“今天推出的由 DGX Cloud 提供支援的 Hugging Face Autotrain 代表著簡化 AI 模型訓練的重要一步。透過將 NVIDIA 的雲端 AI 超級計算機與 Hugging Face 的使用者友好介面相結合,我們正在賦能組織加速其 AI 創新。”
工作原理
在 NVIDIA DGX Cloud 上訓練 Hugging Face 模型從未如此簡單。下面您將找到微調 Mistral 7B 的分步教程。
注意:您需要訪問具有 Hugging Face Enterprise 訂閱的組織才能使用 Train on DGX Cloud。
您可以在受支援的生成式 AI 模型的模型頁面上找到 Train on DGX Cloud。它目前支援以下模型架構:Llama、Falcon、Mistral、Mixtral、T5、Gemma、Stable Diffusion 和 Stable Diffusion XL。

開啟“訓練”選單,然後選擇“NVIDIA DGX Cloud”——這將開啟一個介面,您可以在其中選擇您的企業組織。

然後,單擊“建立新空間”。首次使用 Train on DGX Cloud 時,該服務將在您的組織內建立一個新的 Hugging Face Space,這樣您就可以使用 AutoTrain 建立將在 NVIDIA DGX Cloud 上執行的訓練作業。當您以後想建立另一個訓練作業時,您將自動重定向回現有的 AutoTrain Space。
進入 AutoTrain Space 後,您可以透過配置硬體、基礎模型、任務和訓練引數來建立訓練作業。

對於硬體,您可以選擇 NVIDIA H100 GPU,提供 1x、2x、4x 和 8x 例項,或 L40S GPU(即將推出)。訓練資料集必須直接上傳到“上傳訓練檔案”區域。目前支援 CSV 和 JSON 檔案。請確保列對映正確,如下例所示。對於訓練引數,您可以直接編輯右側的 JSON 配置,例如,將 epoch 數從 3 更改為 2。
設定好一切後,您可以點選“開始訓練”開始訓練。AutoTrain 現在將驗證您的資料集,並要求您確認訓練。

您可以透過開啟 Space 的“日誌”來監控您的訓練。

訓練完成後,您的微調模型將上傳到 Hugging Face Hub 上您所選名稱空間中的一個新私有倉庫。
Train on DGX Cloud 現已面向所有企業版 Hub 組織推出!請嘗試使用該服務,並向我們提供您的反饋!
Train on DGX Cloud 的定價
Train on DGX Cloud 的使用費用根據訓練作業期間使用的 GPU 例項分鐘數計費。目前,H100 例項的訓練作業價格為每 GPU 小時 8.25 美元,L40S 例項的價格為每 GPU 小時 2.75 美元。使用費用在作業完成後計入您的企業版 Hub 組織當前的月度賬單週期。您可以隨時在您的企業版 Hub 組織的計費設定中檢視當前和過去的使用情況。
NVIDIA GPU | GPU 視訊記憶體 | 按需價格/小時 |
NVIDIA L40S | 48GB | $2.75 |
NVIDIA H100 | 80 GB | $8.25 |
例如,在單個 NVIDIA L40S 上對 1500 個樣本的 Mistral 7B 進行微調大約需要 10 分鐘,費用約為 0.45 美元。
我們才剛剛開始
我們很高興能與 NVIDIA 合作,在開放科學、開源和雲服務領域實現加速機器學習的民主化。
我們透過 BigCode 在開放科學方面的合作,使得 StarCoder 2 15B 的訓練成為可能,這是一個完全開放、最先進的程式碼 LLM,在 600 多種語言上進行了訓練。
我們在開源方面的合作正在推動新的 optimum-nvidia 庫,加速 LLM 在最新 NVIDIA GPU 上的推理,並已經實現了 Llama 2 每秒 1200 個 token 的速度。
我們今天在雲服務方面的合作建立了 Train on DGX Cloud。我們還在與 NVIDIA 合作,最佳化推理並使加速計算對 Hugging Face 社群更易於訪問,利用我們在 NVIDIA TensorRT-LLM 和 optimum-nvidia 上的合作。此外,Hugging Face 上一些最受歡迎的開放模型將支援 NVIDIA NIM 微服務,該服務已於今天在 GTC 上釋出。
對於本週參加 GTC 的朋友們,請務必觀看 3 月 20 日星期三太平洋時間下午 3 點的 S63149 場次,屆時 Jeff 將引導您瞭解 Train on DGX Cloud 等內容。此外,不要錯過下一期 Hugging Cast,我們將在太平洋時間 3 月 21 日星期四上午 9 點/東部時間中午 12 點/歐洲中部時間下午 5 點進行 Train on DGX Cloud 的現場演示,您可以直接向 Abhishek 和 Rafael 提問——在此觀看錄播。