構建你自己的機器

在為深度學習構建機器時，最重要的考慮因素之一是 GPU 的選擇。GPU 是深度學習的標準主力，因為它們擁有用於高效矩陣乘法的 Tensor Core 和高記憶體頻寬。為了訓練大型模型，你需要更強大的 GPU、多個 GPU，或者利用將部分負載解除安裝到 CPU 或 NVMe 的技術。

本指南提供了一些設定深度學習 GPU 的實用技巧。有關 GPU 的更詳細討論和比較，請參閱《為深度學習選擇哪個 GPU(s)》部落格文章。

電源

高階消費級 GPU 可能有兩個或三個 PCIe 8 針電源插座，您應該確保每個插座都連線了相同數量的 12V PCIe 8 針電纜。不要使用**一分二電纜**（一根電纜在末端有兩個分支）來連線兩個插座，否則您將無法獲得 GPU 的全部效能。

每根 PCIe 8 針電源線都應連線到電源單元（PSU）上的 12V 軌，並可提供高達 150W 的功率。其他 GPU 可能使用 PCIe 12 針聯結器，可提供高達 500-600W 的功率。低端 GPU 可能只使用 PCIe 6 針聯結器，提供高達 75W 的功率。

重要的是 PSU 具有穩定的電壓，否則在峰值使用期間可能無法為 GPU 提供足夠的電源以使其正常執行。

過熱的 GPU 會降低其效能，如果太熱甚至會關機以防止損壞。將 GPU 溫度保持在 158 - 167 華氏度（70 - 75 攝氏度）之間，對於發揮全部效能和延長其壽命至關重要。一旦溫度達到 183 - 194 華氏度（84 - 90 攝氏度），GPU 可能會開始限制性能。

當您的設定使用多個 GPU 時，考慮它們的連線方式很重要。NVLink 連線比 PCIe 橋接器更快，但您也應該考慮您使用的並行策略。例如，在 DistributedDataParallel 中，GPU 通訊頻率低於 ZeRO-DP。在這種情況下，較慢的連線並不那麼重要。

執行以下命令檢查您的 GPU 如何連線。

nvidia-smi topo -m

NVLink

無 NVLink