Transformers 文件

構建你自己的機器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

構建你自己的機器

在為深度學習構建機器時,最重要的考慮因素之一是 GPU 的選擇。GPU 是深度學習的標準主力,因為它們擁有用於高效矩陣乘法的 Tensor Core 和高記憶體頻寬。為了訓練大型模型,你需要更強大的 GPU、多個 GPU,或者利用將部分負載解除安裝到 CPU 或 NVMe 的技術。

本指南提供了一些設定深度學習 GPU 的實用技巧。有關 GPU 的更詳細討論和比較,請參閱《為深度學習選擇哪個 GPU(s)》部落格文章。

電源

高階消費級 GPU 可能有兩個或三個 PCIe 8 針電源插座,您應該確保每個插座都連線了相同數量的 12V PCIe 8 針電纜。不要使用**一分二電纜**(一根電纜在末端有兩個分支)來連線兩個插座,否則您將無法獲得 GPU 的全部效能。

每根 PCIe 8 針電源線都應連線到電源單元(PSU)上的 12V 軌,並可提供高達 150W 的功率。其他 GPU 可能使用 PCIe 12 針聯結器,可提供高達 500-600W 的功率。低端 GPU 可能只使用 PCIe 6 針聯結器,提供高達 75W 的功率。

重要的是 PSU 具有穩定的電壓,否則在峰值使用期間可能無法為 GPU 提供足夠的電源以使其正常執行。

散熱

過熱的 GPU 會降低其效能,如果太熱甚至會關機以防止損壞。將 GPU 溫度保持在 158 - 167 華氏度(70 - 75 攝氏度)之間,對於發揮全部效能和延長其壽命至關重要。一旦溫度達到 183 - 194 華氏度(84 - 90 攝氏度),GPU 可能會開始限制性能。

多 GPU 連線

當您的設定使用多個 GPU 時,考慮它們的連線方式很重要。NVLink 連線比 PCIe 橋接器更快,但您也應該考慮您使用的並行策略。例如,在 DistributedDataParallel 中,GPU 通訊頻率低於 ZeRO-DP。在這種情況下,較慢的連線並不那麼重要。

執行以下命令檢查您的 GPU 如何連線。

nvidia-smi topo -m
NVLink
無 NVLink

NVLink 是 NVIDIA 設計的一種高速通訊系統,用於連線多個 NVIDIA GPU。在 wikitext 資料集的小樣本上訓練 openai-community/gpt2 使用 NVLink 速度快了約 23%。

在具有兩個透過 NVLink 連線的 GPU 的機器上,nvidia-smi topo -m 的示例如下所示。

        GPU0    GPU1    CPU Affinity    NUMA Affinity
GPU0     X      NV2     0-23            N/A
GPU1    NV2      X      0-23            N/A

NV2 表示 GPU0GPU1 透過 2 個 NVLink 連線。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.