2025-11-14

知識文章

企業選購 AI Server 的五大關鍵：效能、散熱、機櫃、能效與服務

分享：

要點一：GPU / CPU 配置——從工作負載反推

訓練 vs. 推論：先定義用途

訓練（Training）：長時高負載、需大顯存、高頻寬與 GPU 間高速互連。
推論（Inference）：短時多任務、重延遲與能效比，通常少量 GPU 即可。

GPU 指標

顯存容量：決定模型與批次大小，建議 ≥ 80GB（A100/H100 級）。
記憶體頻寬：高頻寬（HBM3/2e）能顯著降低資料瓶頸。
互連架構：NVLink / NVSwitch、PCIe Gen5 會影響多 GPU 擴展效率。
功耗（TDP）：單卡可達 350–700W，需提前與散熱與配電設計對齊。

CPU 指標

核心數與時脈：推論或混合負載建議多核心、多執行緒架構。
記憶體通道與頻寬：AI Server 偏好 DDR5 / 8 通道以上配置。
NUMA 架構：跨插槽傳輸延遲需優化，建議開啟 NUMA-aware 模式。
I/O 通道數：影響 GPU、儲存與網卡連線數量。

配比建議

訓練：GPU : CPU 約 8:1 ～ 16:1（視工作負載）。
推論：GPU : CPU 約 1:2 ～ 1:4，視延遲需求調整。

測試方法

基準測試：MLPerf、PyTorch Benchmark、TensorRT 等。
實務測試：以自家模型進行微型訓練/推論，觀察瓶頸點（I/O、RAM、熱）。

要點二：散熱設計與散熱模組選擇

AI Server 的高功率密度讓散熱成為最難忽略的關鍵。

風冷可行邊界

機箱風道：前進後出、冷熱分區隔離。
風扇曲線：溫度自適應控制，避免滿速能耗過高。
散熱片設計：銅鋁混合材質、導熱膏品質皆影響效率。
灰塵管理：濾網與維護週期決定長期穩定性。

適用場景：中密度部署（<15kW/櫃），或暫無液冷條件的既有機房。

直冷液冷（Cold Plate Liquid Cooling）

冷板直觸 GPU/CPU 表面，熱交換效率高於風冷 3～5 倍。
搭配 CDU（冷卻分配單元）與冷卻迴路，冷卻液循環封閉運作。
材料需相容（避免電化學腐蝕），壓測防漏與 SOP 訓練必備。

沉浸式冷卻（Immersion Cooling）

全機浸入絕緣液中，噪音與塵埃問題近乎消失。
單相液體（Passive）維護簡易；雙相液體（Boiling）效率更高但成本高。
適合新建資料中心或高密度 (>40kW/櫃) 場景。

決策準則

<15kW/櫃：風冷優化（封板、封頂、行列式空調）。
15–40kW/櫃：導入直冷液冷。
>40kW/櫃：沉浸式冷卻最具成本效益。

要點三：機櫃與空間規劃

功率密度與配電

每櫃功率預估：15～30kW 為主流，極高密度可達 50kW。
PDU 額定與冗餘：A/B Feed 雙路供電設計。
UPS 容量與母線槽分配須預留 20～30% 餘裕。

空間與氣流設計

採行冷熱通道隔離、頂部回風、封板管理。
走纜不阻風，線槽與電纜束應避開主氣流通道。
機櫃深度（≥1200mm）與維修通道距離（前80cm、後100cm）應納入設計。

拓展性與驗收

機櫃預留擴充位、母線槽與冷卻管線預留。
驗收時需檢測：熱影像、溫度分佈、壓差（ΔP）、噪音、維修可近性。

要點四：能源效率（PUE / TCO / ROI）

能效指標

PUE（Power Usage Effectiveness）：AI 機房目標應 ≤ 1.3。
風扇能耗：高效變速風扇可節省 10～20% 電力。
冷卻系統 COP（性能係數）：液冷 COP 約為風冷的 2 倍。
動態節能策略：依溫度/負載自動調整空調曲線。

TCO 框架

CAPEX：設備購置 + 機房改造 + 散熱系統投資。
OPEX：電力、維保、人力、停機風險。
ROI 回收期：ROI (年) = CAPEX / 年節能金額
通常液冷系統約 2～4 年可回收。

監控落地

建立 PUE、溫度、功耗、降頻率、運作時長等監控儀表板。
利用 AI/DCIM 系統預測能耗趨勢，做預防性維運。

要點五：廠商服務與生態系——被忽略的勝負手

供應鏈與保固

GPU/加速器供應週期長（6～12 個月），需提前鎖貨。
核對零組件保固條款（GPU、主機板、液冷管路分別計算）。
SLA（Service Level Agreement）：到場時效與備品存量需明訂。

部署與維運能力

專業安裝與壓測（含散熱與配電）。
韌體與 BIOS 管理、監控平台部署（BMC / Redfish / IPMI）。
異常處理與回報 SOP、定期健康檢查報告。

擴張與升級路線

由 POC → 小量部署 → 全規模叢集，確保韌體與 BIOS 相容性矩陣一致。
韌體版本治理（Firmware Lifecycle Management）避免異版衝突。

安全與合規

韌體供應鏈安全（Secure Boot、Signed Firmware）。
BMC/RBAC 權限控管與加密審計。
若涉跨國佈署，需確認 GDPR、ISO 27001、CNS 27001 等合規性。

評選清單（Checklist）

GPU/CPU 型號與效能對標報告
散熱模組與 PUE 預估
機櫃與空間需求圖
CAPEX / OPEX / ROI 模型
SLA 條款與零件更換流程
合規文件與安全稽核紀錄

決策流程：從需求到驗收

明確需求：AI 工作負載特性（訓練、推論、混合）。
建立評估矩陣：效能、能效、散熱、維運、供應鏈。
小規模 POC 驗證：量測 GPU 吞吐、IO 效率、降頻事件。
試運行與監控：建立實際 PUE 與能耗曲線。
全面導入與驗收：熱影像、電力測試、韌體版本一致性、效能基準。

FAQ

Q1：一台「最強」就夠嗎，還是應該做叢集？
若為 LLM 或多節點訓練，單台再強也受限於 GPU 數與記憶體容量，建議採橫向叢集（Scale-out）架構。

Q2：沒有 InfiniBand 能訓練大型模型嗎？
可用高速以太網（RoCEv2）替代，但訓練效率約低 10～15%，需視模型同步頻率與延遲容忍度。

Q3：液冷導入的維護難度會讓 OPEX 變高嗎？
現代冷板與管路設計已模組化，可由 SOP 定期維護，OPEX 反而隨 PUE 降低而整體下降。

Q4：如何避免買到規格過剩但效能不增？
以工作負載反推配置，並執行實際基準測試。GPU/CPU 平衡與 IO 管線設計遠比單純堆料更關鍵。

結語：投資 AI Server，從技術選型走向策略決策

AI Server 不只是硬體，而是企業運算力戰略的一環。
唯有在效能、散熱、能效與服務之間找到平衡，企業才能在 AI 時代真正獲得長期競爭力。
從試點（POC）開始，以數據驅動決策，逐步擴展——這才是 AI Server 導入的最穩健路線。