在液冷的宣传语境中,PUE几乎被视为“万能指标”。但武彤指出,运维团队真正关心的并非极致能效,而是系统能否长期稳定、可预测地运行。一旦发生漏液事故,其风险与损失往往足以抵消多年节能收益,这也成为液冷推广中始终绕不开的现实问题。
从技术层面看,漏液隐患很难彻底根除。冷板、管路、接头、阀门等环节本身就存在多点风险;同时,冷却系统的稳定性和可靠性也面临挑战,包括单点故障的放大效应,以及冷却工质在长期运行中热物性是否能够保持稳定。
在成本维度,液冷同样存在结构性压力。其一,初期建设成本普遍较高,一体化交付模式在一定程度上加剧了成本“黑盒化”;其二,长期运营成本并不容易下降,冷却液老化需要定期检测,专用部件的维护和更换也依赖具备专业能力的运维人员。
在实际应用中,节能并不必然等同于收益。沈诚表示,液冷确实降低了制冷能耗,但节省的电费是否真正转化为运营收益,并不确定。CPU液冷机柜通常由COLO或部署方承担,而GPU液冷往往采用整机柜交付模式,如华为384节点方案等,其成本结构与核算方式差异较大。
更现实的问题在于交付与运维成本。液冷系统对水质、工质、材料兼容性的要求极高,而这些隐性成本往往被低估。沈诚指出,在液冷场景下,涉及去离子水、丙二醇、乙二醇等多种工质,一旦更换工质,往往需要整体更换管路系统。如何确保机房在七年周期内持续产生新增价值,是一个关键命题。
归根结底,液冷的成本之争,本质是短期效率与长期风险之间的博弈。行业当前更倾向于前者,但历史经验表明,基础设施领域对后者的忽视,往往会在更晚的阶段集中爆发。
运维并未简化,液冷正在制造新的复杂性
液冷常被描绘为“去风机化”的简化方案,但实际情况恰恰相反。沈诚直言,实际经验表明,水是最难管控的介质。引入液冷后,运维复杂度不仅没有降低,反而因工质管理和水系统控制而显著提升。
液冷系统中使用的工质不仅包括去离子水,还涉及乙二醇、丙二醇等化学介质,它们对设备材料、密封件及系统稳定性均有不同影响。水不仅仅是散热介质,它同时承载着化学反应和微生物滋生的潜在风险,需要全生命周期的管控策略,远超传统风冷运维的经验范畴。
因此,液冷系统需要配套完善的应急预案和专家级运维团队。这并非短期可达成,而是一个长期积累和持续培养的体系化过程。
武彤也指出,液冷运维人员不仅要求具备多学科知识,包括流体力学、热工学和化学材料,还需要应对风液混合模式带来的复杂问题。系统的脆弱性和排故难度,使得液冷对运维专业性提出了前所未有的高门槛。
更深层的争议在于,液冷是否真的降低了数据中心的运营门槛。对于头部企业而言,复杂性意味着壁垒;但对行业整体来说,它也意味着运维人才短缺与成本结构刚性化。液冷并未让数据中心变简单,而是把复杂性从风道转移到了水路。
可选走向必选之后,液冷产业的下一道坎
液冷技术变革正在面临材料兼容性、整体TCO偏高、供应链不完善、运维体系与人员技能转型等多重挑战。针对这些挑战,武彤提出,通过计量、标准、检验检测和认证认可等质量技术手段,打通材料、部件、系统、应用场景与数据流,实现全链路可追溯、可互认。
更大的挑战来自国际化与供应链安全。工质材料、关键部件仍存在较强的外部依赖。沈诚认为,相较于乙二醇,丙二醇更环保,但价格约为其20倍,且品牌长期受制于国外供应。丙二醇的国产化能力,将直接影响液冷产业的可持续性。如果这一问题无法解决,液冷的“必选”地位,反而可能成为新的约束。
此外,液冷系统中的液风比仍在持续演进,例如5:5、5:5.8、2:9、7:3等比例。如何在未来保持液风比的相对稳定,同时评估液冷对水利用效率(WUE)的影响,也是行业亟需深入研究的问题。
当液冷真正成为算力基础设施的一部分,它不再仅是工程问题,而上升为产业治理问题。如何在效率、可靠性、成本与生态之间取得平衡,将决定这场“液冷热潮”究竟是一场理性升级,还是因算力焦虑而放大的阶段性狂热。


