Transformers 文件
構建你自己的機器
並獲得增強的文件體驗
開始使用
構建你自己的機器
在為深度學習構建機器時,最重要的考慮因素之一是 GPU 的選擇。GPU 是深度學習的標準主力,因為它們擁有用於高效矩陣乘法的 Tensor Core 和高記憶體頻寬。為了訓練大型模型,你需要更強大的 GPU、多個 GPU,或者利用將部分負載解除安裝到 CPU 或 NVMe 的技術。
本指南提供了一些設定深度學習 GPU 的實用技巧。有關 GPU 的更詳細討論和比較,請參閱《為深度學習選擇哪個 GPU(s)》部落格文章。
電源
高階消費級 GPU 可能有兩個或三個 PCIe 8 針電源插座,您應該確保每個插座都連線了相同數量的 12V PCIe 8 針電纜。不要使用**一分二電纜**(一根電纜在末端有兩個分支)來連線兩個插座,否則您將無法獲得 GPU 的全部效能。
每根 PCIe 8 針電源線都應連線到電源單元(PSU)上的 12V 軌,並可提供高達 150W 的功率。其他 GPU 可能使用 PCIe 12 針聯結器,可提供高達 500-600W 的功率。低端 GPU 可能只使用 PCIe 6 針聯結器,提供高達 75W 的功率。
重要的是 PSU 具有穩定的電壓,否則在峰值使用期間可能無法為 GPU 提供足夠的電源以使其正常執行。
散熱
過熱的 GPU 會降低其效能,如果太熱甚至會關機以防止損壞。將 GPU 溫度保持在 158 - 167 華氏度(70 - 75 攝氏度)之間,對於發揮全部效能和延長其壽命至關重要。一旦溫度達到 183 - 194 華氏度(84 - 90 攝氏度),GPU 可能會開始限制性能。
多 GPU 連線
當您的設定使用多個 GPU 時,考慮它們的連線方式很重要。NVLink 連線比 PCIe 橋接器更快,但您也應該考慮您使用的並行策略。例如,在 DistributedDataParallel 中,GPU 通訊頻率低於 ZeRO-DP。在這種情況下,較慢的連線並不那麼重要。
執行以下命令檢查您的 GPU 如何連線。
nvidia-smi topo -m
NVLink 是 NVIDIA 設計的一種高速通訊系統,用於連線多個 NVIDIA GPU。在 wikitext 資料集的小樣本上訓練 openai-community/gpt2 使用 NVLink 速度快了約 23%。
在具有兩個透過 NVLink 連線的 GPU 的機器上,nvidia-smi topo -m
的示例如下所示。
GPU0 GPU1 CPU Affinity NUMA Affinity GPU0 X NV2 0-23 N/A GPU1 NV2 X 0-23 N/A
NV2
表示 GPU0
和 GPU1
透過 2 個 NVLink 連線。