液冷 vs. 風冷:AI伺服器散熱的最佳選擇
AI 訓練與推論運算所需的功率密度越來越高,伺服器散熱設計也成為決定效能與能源效率的關鍵議題。當前最主流的兩大技術——風冷(Air Cooling)與液冷(Liquid Cooling),各自有其優勢與限制。
本篇將帶你從實務角度出發,深入比較兩者在效能、成本、維護與導入門檻上的差異,協助決策者找到最適合自身機房條件的散熱方案。
一、風冷系統特色與適用條件
風冷優點
-
技術成熟、導入快:不需大幅改造既有機房,設備汰換容易。
-
維護門檻低:常見維修作業(風扇、濾網、空調清潔)即可維持穩定性。
-
相容性佳:與既有的 CRAC / CRAH 系統及通道設計完美搭配。
-
短期上線效率高:部署時間短,適合臨時擴容與快速交付專案。
風冷限制
-
高密度效率遞減:當單櫃熱密度超過 15kW,氣流難以有效帶走熱能。
-
風扇能耗與噪音問題:長時間滿速運轉會增加能耗與機房噪音。
-
灰塵積累與清潔成本:濾網堵塞、灰塵堆積會降低冷卻效率。
何時選風冷
-
機房已有完善冷熱通道與空調配置。
-
上線時程緊迫、需快速部署伺服器。
-
機櫃熱密度屬中等(< 15kW)。
-
有計畫逐步升級或過渡到液冷,但短期內以風冷延壽。
建議做法:
若選擇持續使用風冷,可先透過封板/封頂、行列式空調優化、壓差監控與氣流導流板等措施,將現有系統效益最大化。
二、液冷系統優勢與導入門檻
液冷的類型
-
直冷液冷(Direct-to-Chip / Cold Plate)
-
液體通過冷板直接吸收 GPU/CPU 的熱量。
-
冷卻效率比風冷高 3~5 倍,可精準控制核心溫度。
-
仍需輔助風冷帶走殘餘熱(如 VRM、記憶體)。
-
適合高密度 (>20kW/櫃) 的 AI 訓練節點或 HPC 環境。
-
沉浸式冷卻(Immersion Cooling)
-
將整台伺服器浸入絕緣冷卻液中,幾乎可消除風扇與噪音。
-
可支撐超高熱密度 (>50kW/櫃),能顯著降低 PUE。
-
導入門檻高,需重新設計空間、結構與維護流程。
液冷優勢
-
高熱密度適應性強,可支援大型 AI 模型訓練。
-
能效高,PUE 可降至 1.1 以下。
-
降低伺服器風扇功耗與噪音。
-
提升設備壽命與穩定性,長期 OPEX 下降。
導入門檻
-
初期 CAPEX 成本高:需新建冷卻水路與交換系統。
-
維運團隊需再訓練:需掌握液體處理、安全操作與監控知識。
-
相容性與保固問題:需確認供應商對液冷環境的支援條款。
何時選液冷
-
AI 訓練節點長時間高功耗運行 (>20kW/櫃)。
-
有中長期節能目標(PUE < 1.3)。
-
新建資料中心或計畫重構既有機房。
-
擁有足夠的 CAPEX 及專業維運人員。
三、成本與維護比較
|
項目 |
風冷系統 |
液冷系統 |
|
CAPEX(建置成本) |
低,利用現有空調與風道即可 |
高,需額外冷板、配管、熱交換器 |
|
OPEX(營運成本) |
高,風扇與空調能耗大 |
低,冷卻效率高、風扇可關閉 |
|
PUE 典型值 |
1.5~1.8 |
1.1~1.3 |
|
維護頻率 |
高,濾網與風扇定期保養 |
中,重點為冷卻液品質與密封性 |
|
噪音 |
中高 |
低(近靜音) |
|
可擴充性 |
受限於空調容量 |
可模組化擴展 |
|
初期導入期 |
1~3 個月 |
6~12 個月 |
|
典型壽命週期回收期 (ROI) |
約 3~5 年 |
約 2~4 年(視能源成本而定) |
TCO 與回收期估算方法
TCO = CAPEX + (OPEX × 年數)
ROI(年) = CAPEX / (年節能成本)
企業可依據能源價格、伺服器密度與預計運行年限,建立內部回收模型作為決策依據。
四、選型決策框架:給決策者的 8 個提問
-
目標機櫃功率密度與上線時程是什麼?
-
現有機房是否已完成冷/熱通道封閉與行列式空調?
-
是否需要在既有空間內快速擴容高 TDP 節點?
-
能源價格與節能 KPI(如 PUE)目標為何?
-
可支應的 CAPEX 與預期回收年限?
-
維運團隊對液體系統的接受度與訓練程度?
-
供應鏈與保固條款對液冷的相容性如何?
-
是否允許「混合式」過渡方案(高熱節點液冷,其餘維持風冷)?
五、導入策略:混合式過渡最穩妥
1. 先撐大風冷上限
-
安裝封板、封頂,防止熱回流。
-
使用行列式空調與頂置排風架構。
-
加裝壓差與氣流監控(CFM/ΔP 感測器)。
2. 高 TDP 節點優先液冷
-
先在 GPU 訓練節點導入冷板液冷。
-
其餘系統維持風冷,以降低導入風險。
3. SOP 與人員訓練
-
液冷系統需模擬壓測、抽換與洩漏演練。
-
建立備品備件管理制度與異常應變流程。
4. 數據驅動的擴大計畫
-
利用 POC(試點)收集溫度、能耗、PUE、MTBF 等資料。
-
根據數據分析結果,逐步決定擴張速度與範圍。
六、常見 FAQ
Q1:液冷一定比較省電嗎?與 PUE 的關係是什麼?
液冷能將伺服器風扇功耗與空調能耗降至最低,因此對 PUE 下降有顯著貢獻。實際節能幅度依據冷卻液效率與機房結構而異。
Q2:風冷做到頂還有沒有下一步?
可以。若風冷已達極限,可先導入冷通道封閉、氣流導流板與機櫃級智慧風控系統,延長風冷壽命。
Q3:混合式會不會讓維護更複雜?
不一定。現代 DCIM 系統可同時監控風冷與液冷,維運團隊只需依 SOP 操作即可。
Q4:若未來要轉沉浸式,現在做冷板液冷會不會白做?
不會。冷板液冷屬於模組化設計,許多管路與熱交換系統可沿用於沉浸式架構,是自然的過渡階段。
結語:散熱選型決策的核心是「總體成本效益」
無論選擇風冷或液冷,關鍵不在技術本身,而在於「是否與你的業務需求與基礎設施相匹配」。
對多數企業而言,從風冷優化→混合式過渡→全面液冷,是最穩健的路徑。當你能以數據驅動決策,散熱不再是瓶頸,而是效能與能效的加速器。