企業選購 AI Server 的五大關鍵:效能、散熱、機櫃、能效與服務
要點一:GPU / CPU 配置——從工作負載反推
訓練 vs. 推論:先定義用途
-
訓練(Training):長時高負載、需大顯存、高頻寬與 GPU 間高速互連。
-
推論(Inference):短時多任務、重延遲與能效比,通常少量 GPU 即可。
GPU 指標
-
顯存容量:決定模型與批次大小,建議 ≥ 80GB(A100/H100 級)。
-
記憶體頻寬:高頻寬(HBM3/2e)能顯著降低資料瓶頸。
-
互連架構:NVLink / NVSwitch、PCIe Gen5 會影響多 GPU 擴展效率。
-
功耗(TDP):單卡可達 350–700W,需提前與散熱與配電設計對齊。
CPU 指標
-
核心數與時脈:推論或混合負載建議多核心、多執行緒架構。
-
記憶體通道與頻寬:AI Server 偏好 DDR5 / 8 通道以上配置。
-
NUMA 架構:跨插槽傳輸延遲需優化,建議開啟 NUMA-aware 模式。
-
I/O 通道數:影響 GPU、儲存與網卡連線數量。
配比建議
-
訓練:GPU : CPU 約 8:1 ~ 16:1(視工作負載)。
-
推論:GPU : CPU 約 1:2 ~ 1:4,視延遲需求調整。
測試方法
-
基準測試:MLPerf、PyTorch Benchmark、TensorRT 等。
-
實務測試:以自家模型進行微型訓練/推論,觀察瓶頸點(I/O、RAM、熱)。
要點二:散熱設計與散熱模組選擇
AI Server 的高功率密度讓散熱成為最難忽略的關鍵。
風冷可行邊界
-
機箱風道:前進後出、冷熱分區隔離。
-
風扇曲線:溫度自適應控制,避免滿速能耗過高。
-
散熱片設計:銅鋁混合材質、導熱膏品質皆影響效率。
-
灰塵管理:濾網與維護週期決定長期穩定性。
適用場景:中密度部署(<15kW/櫃),或暫無液冷條件的既有機房。
直冷液冷(Cold Plate Liquid Cooling)
-
冷板直觸 GPU/CPU 表面,熱交換效率高於風冷 3~5 倍。
-
搭配 CDU(冷卻分配單元)與冷卻迴路,冷卻液循環封閉運作。
-
材料需相容(避免電化學腐蝕),壓測防漏與 SOP 訓練必備。
沉浸式冷卻(Immersion Cooling)
-
全機浸入絕緣液中,噪音與塵埃問題近乎消失。
-
單相液體(Passive)維護簡易;雙相液體(Boiling)效率更高但成本高。
-
適合新建資料中心或高密度 (>40kW/櫃) 場景。
決策準則
-
<15kW/櫃:風冷優化(封板、封頂、行列式空調)。
-
15–40kW/櫃:導入直冷液冷。
-
>40kW/櫃:沉浸式冷卻最具成本效益。
要點三:機櫃與空間規劃
功率密度與配電
-
每櫃功率預估:15~30kW 為主流,極高密度可達 50kW。
-
PDU 額定與冗餘:A/B Feed 雙路供電設計。
-
UPS 容量與母線槽分配須預留 20~30% 餘裕。
空間與氣流設計
-
採行冷熱通道隔離、頂部回風、封板管理。
-
走纜不阻風,線槽與電纜束應避開主氣流通道。
-
機櫃深度(≥1200mm)與維修通道距離(前80cm、後100cm)應納入設計。
拓展性與驗收
-
機櫃預留擴充位、母線槽與冷卻管線預留。
-
驗收時需檢測:熱影像、溫度分佈、壓差(ΔP)、噪音、維修可近性。
要點四:能源效率(PUE / TCO / ROI)
能效指標
-
PUE(Power Usage Effectiveness):AI 機房目標應 ≤ 1.3。
-
風扇能耗:高效變速風扇可節省 10~20% 電力。
-
冷卻系統 COP(性能係數):液冷 COP 約為風冷的 2 倍。
-
動態節能策略:依溫度/負載自動調整空調曲線。
TCO 框架
-
CAPEX:設備購置 + 機房改造 + 散熱系統投資。
-
OPEX:電力、維保、人力、停機風險。
-
ROI 回收期:ROI (年) = CAPEX / 年節能金額
通常液冷系統約 2~4 年可回收。
監控落地
-
建立 PUE、溫度、功耗、降頻率、運作時長等監控儀表板。
-
利用 AI/DCIM 系統預測能耗趨勢,做預防性維運。
要點五:廠商服務與生態系——被忽略的勝負手
供應鏈與保固
-
GPU/加速器供應週期長(6~12 個月),需提前鎖貨。
-
核對零組件保固條款(GPU、主機板、液冷管路分別計算)。
-
SLA(Service Level Agreement):到場時效與備品存量需明訂。
部署與維運能力
-
專業安裝與壓測(含散熱與配電)。
-
韌體與 BIOS 管理、監控平台部署(BMC / Redfish / IPMI)。
-
異常處理與回報 SOP、定期健康檢查報告。
擴張與升級路線
-
由 POC → 小量部署 → 全規模叢集,確保韌體與 BIOS 相容性矩陣一致。
-
韌體版本治理(Firmware Lifecycle Management)避免異版衝突。
安全與合規
-
韌體供應鏈安全(Secure Boot、Signed Firmware)。
-
BMC/RBAC 權限控管與加密審計。
-
若涉跨國佈署,需確認 GDPR、ISO 27001、CNS 27001 等合規性。
評選清單(Checklist)
-
GPU/CPU 型號與效能對標報告
-
散熱模組與 PUE 預估
-
機櫃與空間需求圖
-
CAPEX / OPEX / ROI 模型
-
SLA 條款與零件更換流程
-
合規文件與安全稽核紀錄
決策流程:從需求到驗收
-
明確需求:AI 工作負載特性(訓練、推論、混合)。
-
建立評估矩陣:效能、能效、散熱、維運、供應鏈。
-
小規模 POC 驗證:量測 GPU 吞吐、IO 效率、降頻事件。
-
試運行與監控:建立實際 PUE 與能耗曲線。
-
全面導入與驗收:熱影像、電力測試、韌體版本一致性、效能基準。
FAQ
Q1:一台「最強」就夠嗎,還是應該做叢集?
若為 LLM 或多節點訓練,單台再強也受限於 GPU 數與記憶體容量,建議採 橫向叢集(Scale-out) 架構。
Q2:沒有 InfiniBand 能訓練大型模型嗎?
可用高速以太網(RoCEv2)替代,但訓練效率約低 10~15%,需視模型同步頻率與延遲容忍度。
Q3:液冷導入的維護難度會讓 OPEX 變高嗎?
現代冷板與管路設計已模組化,可由 SOP 定期維護,OPEX 反而隨 PUE 降低而整體下降。
Q4:如何避免買到規格過剩但效能不增?
以工作負載反推配置,並執行實際基準測試。GPU/CPU 平衡與 IO 管線設計遠比單純堆料更關鍵。
結語:投資 AI Server,從技術選型走向策略決策
AI Server 不只是硬體,而是 企業運算力戰略的一環。
唯有在效能、散熱、能效與服務之間找到平衡,企業才能在 AI 時代真正獲得長期競爭力。
從試點(POC)開始,以數據驅動決策,逐步擴展——這才是 AI Server 導入的最穩健路線。