2025-11-13
知識文章

液冷 vs. 風冷:AI伺服器散熱的最佳選擇

分享:

AI 訓練與推論運算所需的功率密度越來越高,伺服器散熱設計也成為決定效能與能源效率的關鍵議題。當前最主流的兩大技術——風冷(Air Cooling)與液冷(Liquid Cooling),各自有其優勢與限制。
本篇將帶你從實務角度出發,深入比較兩者在效能、成本、維護與導入門檻上的差異,協助決策者找到最適合自身機房條件的散熱方案。

 

一、風冷系統特色與適用條件

風冷優點

  • 技術成熟、導入快:不需大幅改造既有機房,設備汰換容易。

  • 維護門檻低:常見維修作業(風扇、濾網、空調清潔)即可維持穩定性。

  • 相容性佳:與既有的 CRAC / CRAH 系統及通道設計完美搭配。

  • 短期上線效率高:部署時間短,適合臨時擴容與快速交付專案。

風冷限制

  • 高密度效率遞減:當單櫃熱密度超過 15kW,氣流難以有效帶走熱能。

  • 風扇能耗與噪音問題:長時間滿速運轉會增加能耗與機房噪音。

  • 灰塵積累與清潔成本:濾網堵塞、灰塵堆積會降低冷卻效率。

何時選風冷

  • 機房已有完善冷熱通道與空調配置。

  • 上線時程緊迫、需快速部署伺服器。

  • 機櫃熱密度屬中等(< 15kW)。

  • 有計畫逐步升級或過渡到液冷,但短期內以風冷延壽。

建議做法:
若選擇持續使用風冷,可先透過封板/封頂、行列式空調優化、壓差監控與氣流導流板等措施,將現有系統效益最大化。

 

二、液冷系統優勢與導入門檻

液冷的類型

  1. 直冷液冷(Direct-to-Chip / Cold Plate)

    • 液體通過冷板直接吸收 GPU/CPU 的熱量。

    • 冷卻效率比風冷高 3~5 倍,可精準控制核心溫度。

    • 仍需輔助風冷帶走殘餘熱(如 VRM、記憶體)。

    • 適合高密度 (>20kW/櫃) 的 AI 訓練節點或 HPC 環境。

  2. 沉浸式冷卻(Immersion Cooling)

    • 將整台伺服器浸入絕緣冷卻液中,幾乎可消除風扇與噪音。

    • 可支撐超高熱密度 (>50kW/櫃),能顯著降低 PUE。

    • 導入門檻高,需重新設計空間、結構與維護流程。

液冷優勢

  • 高熱密度適應性強,可支援大型 AI 模型訓練。

  • 能效高,PUE 可降至 1.1 以下。

  • 降低伺服器風扇功耗與噪音。

  • 提升設備壽命與穩定性,長期 OPEX 下降。

導入門檻

  • 初期 CAPEX 成本高:需新建冷卻水路與交換系統。

  • 維運團隊需再訓練:需掌握液體處理、安全操作與監控知識。

  • 相容性與保固問題:需確認供應商對液冷環境的支援條款。

何時選液冷

  • AI 訓練節點長時間高功耗運行 (>20kW/櫃)。

  • 有中長期節能目標(PUE < 1.3)。

  • 新建資料中心或計畫重構既有機房。

  • 擁有足夠的 CAPEX 及專業維運人員。

 

三、成本與維護比較

項目

風冷系統

液冷系統

CAPEX(建置成本)

低,利用現有空調與風道即可

高,需額外冷板、配管、熱交換器

OPEX(營運成本)

高,風扇與空調能耗大

低,冷卻效率高、風扇可關閉

PUE 典型值

1.5~1.8

1.1~1.3

維護頻率

高,濾網與風扇定期保養

中,重點為冷卻液品質與密封性

噪音

中高

低(近靜音)

可擴充性

受限於空調容量

可模組化擴展

初期導入期

1~3 個月

6~12 個月

典型壽命週期回收期 (ROI)

約 3~5 年

約 2~4 年(視能源成本而定)

TCO 與回收期估算方法

TCO = CAPEX + (OPEX × 年數)
ROI(年) = CAPEX / (年節能成本)
企業可依據能源價格、伺服器密度與預計運行年限,建立內部回收模型作為決策依據。

 

四、選型決策框架:給決策者的 8 個提問

  1. 目標機櫃功率密度與上線時程是什麼?

  2. 現有機房是否已完成冷/熱通道封閉與行列式空調?

  3. 是否需要在既有空間內快速擴容高 TDP 節點?

  4. 能源價格與節能 KPI(如 PUE)目標為何?

  5. 可支應的 CAPEX 與預期回收年限?

  6. 維運團隊對液體系統的接受度與訓練程度?

  7. 供應鏈與保固條款對液冷的相容性如何?

  8. 是否允許「混合式」過渡方案(高熱節點液冷,其餘維持風冷)?

 

五、導入策略:混合式過渡最穩妥

1. 先撐大風冷上限

  • 安裝封板、封頂,防止熱回流。

  • 使用行列式空調與頂置排風架構。

  • 加裝壓差與氣流監控(CFM/ΔP 感測器)。

2. 高 TDP 節點優先液冷

  • 先在 GPU 訓練節點導入冷板液冷。

  • 其餘系統維持風冷,以降低導入風險。

3. SOP 與人員訓練

  • 液冷系統需模擬壓測、抽換與洩漏演練。

  • 建立備品備件管理制度與異常應變流程。

4. 數據驅動的擴大計畫

  • 利用 POC(試點)收集溫度、能耗、PUE、MTBF 等資料。

  • 根據數據分析結果,逐步決定擴張速度與範圍。

 

六、常見 FAQ

Q1:液冷一定比較省電嗎?與 PUE 的關係是什麼?
液冷能將伺服器風扇功耗與空調能耗降至最低,因此對 PUE 下降有顯著貢獻。實際節能幅度依據冷卻液效率與機房結構而異。

Q2:風冷做到頂還有沒有下一步?
可以。若風冷已達極限,可先導入冷通道封閉、氣流導流板與機櫃級智慧風控系統,延長風冷壽命。

Q3:混合式會不會讓維護更複雜?
不一定。現代 DCIM 系統可同時監控風冷與液冷,維運團隊只需依 SOP 操作即可。

Q4:若未來要轉沉浸式,現在做冷板液冷會不會白做?
不會。冷板液冷屬於模組化設計,許多管路與熱交換系統可沿用於沉浸式架構,是自然的過渡階段。

 

結語:散熱選型決策的核心是「總體成本效益」

無論選擇風冷或液冷,關鍵不在技術本身,而在於「是否與你的業務需求與基礎設施相匹配」。
對多數企業而言,從風冷優化→混合式過渡→全面液冷,是最穩健的路徑。當你能以數據驅動決策,散熱不再是瓶頸,而是效能與能效的加速器。

繁體中文
加入我們

依據歐盟施行的個人資料保護法,我們致力於保護您的個人資料並提供您對個人資料的掌握。
按一下「全部接受」,代表您允許我們置放 Cookie 來提升您在本網站上的使用體驗、協助我們分析網站效能和使用狀況,以及讓我們投放相關聯的行銷內容。您可以在下方管理 Cookie 設定。 按一下「確認」即代表您同意採用目前的設定。

管理Cookies

隱私權偏好設定中心

依據歐盟施行的個人資料保護法,我們致力於保護您的個人資料並提供您對個人資料的掌握。
按一下「全部接受」,代表您允許我們置放 Cookie 來提升您在本網站上的使用體驗、協助我們分析網站效能和使用狀況,以及讓我們投放相關聯的行銷內容。您可以在下方管理 Cookie 設定。 按一下「確認」即代表您同意採用目前的設定。

查看隱私權政策

管理同意設定

必要的Cookie

一律啟用

網站運行離不開這些 Cookie 且您不能在系統中將其關閉。通常僅根據您所做出的操作(即服務請求)來設置這些 Cookie,如設置隱私偏好、登錄或填充表格。您可以將您的瀏覽器設置為阻止或向您提示這些 Cookie,但可能會導致某些網站功能無法工作。