2025年AIDC行业专题报告
发布时间:
2025-05-30
投资分析
AI大模型训练/推理及端侧应用爆发驱动算力需求持续高增,以互联网巨头及运营商为主导的资本开支扩张推动数据中心向高密度、规模化迭代升级,带动暖通行业形成传统风冷稳健增长与液冷技术加速渗透的双轮驱动格局。由于新建机房对于PUE的要求逐渐严苛,风冷的间接蒸发冷以及氟泵等更加节能的方案成为风冷方案中的主流;而制冷侧核心设备冷水机组压缩机因数据中心建设需求激增,叠加全球头部厂商(江森/特灵/开利/大金)产能扩张滞后,预计未来2-3年供需缺口逐步显现。
以智算中心为主的数据中心产业快速发展
- 数据中心分三类:云计算、智算、超算
云计算数据中心指以软件定义方式提供基础架构设施服务、以SaaS方式提供应用及数据服务的新型数据中心。云计算数据中心主要用于处理数据密集、通讯密集的事务性任务,广泛应用于各行各业,尤其是需要快速响应时长变化的领域。云计算基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,将云计算与数据中心有效结合实现了优势互补。云计算数据中心具备高设备利用率、绿色节能、高可用性和自动化管理的特征。
智算中心受益于AI大模型对于算力的需求而快速发展。人工智能带来的算力需求迅速上升后很多互联网企业如字节、阿里等开始投资建设更大规模智算中心。智算中心的耗电量相较云计算数据中心更大,耗电量为传统云计算中心的十倍以上。在未来AI大模型带来的训练以及推理侧的需求以及端侧应用带来的算力需求的增加会使得智算中心的建设不断增加,智算中心将成为我国数据中心增量中的主要组成。
超算中心侧重于科学计算等计算密集型任务,面向科研人员和科学计算场景提供支撑服务。超算中心具有极高的计算速度和精度,主要提供国家高科技领域和尖端技术研究需的运算速度和存储容量,包括航天、国防、石油勘探、气候建模和基因组测序等。超算集群逻辑上是集中式的,针对计算密集型任务更强调并行计算以获得高性能,各节点任务存在前后的依赖,节点之间数据交换的延迟要求非常高。目前超算中心的主要客户包括国有背景的重点工程和技术研究所、创新业务如大数据、AI、视频渲染等互联网公司、高校实验室等三类。
- 传统云计算较为饱和,智算算力需求推动智算发展
传统的云计算数据中心目前已经较为饱和。2010年开始,传统服务器托管、机架租赁等IDC服务形式逐步被云计算取代,对大规模数据中心承载提出更大需求,IDC市场持续高速增长。根据智研咨询的数据统计,2010年我国IDC市场总规模为102.2亿元,2020年达2238.7亿元,同比增长43.28%,2010-2020年我国IDC产业复合增长率为36.16%。大量客户开始要求引入云计算,集群化建设、虚拟化和云计算需求旺盛。市场供给侧呈现运营商、第三方、跨界方多主体竞争格局,服务形态转变为相对集中的大型云数据中心。2020年以后,云计算、大数据、AI等新数字技术的加速发展,驱动数据云存储及计算、智能算力、边缘算力等需求持续增长,需求向“云计算大型、超大型IDC+智能计算本地化中型数据中心+边缘计算小微型IDC”三级转变,规模化智算与行业智算并行的需求特征显现。目前传统云计算数据中心仅在“东数西算”规划的一些西部地区,例如甘肃、内蒙古等地,有增量的建设,一部分是为了把一二线城市的金融、互联网以及通信等行业中对于时效性并不是很敏感的冷数据转移到西部,另外还有一部分是在西部建设灾备机房的需求,由于通用计算算力的增长有限,而存量还有较多的未被消纳的云计算的数据中心资源,未来云计算数据中心将不会有较大规模的增长。
智算算力需求快速增长,推动智算中心建设。人工智能带来的算力需求迅速上升,很多互联网企业,如字节、阿里等,开始投资建设更大规模智算中心。智算中心在中国计算设备算力中占据比重不断增加,根据CIDC的数据统计,2016年智算算力占总算力的比例仅为3%,2022年占比为21.85%,2023年已经提升至了36.81%,。智算算力的增长推动了市场规模的快速增长,2020年智算中心市场规模仅为323亿元,2020-2023年市场规模不断增加,2022年生成式人工智能大模型推向市场,在国内引起AIGC发展热潮,大模型训练对智能算力的需求迅速攀升,到2023年中国智算中心市场投资规模达到879亿元,同比增长94.04%,2020-2023年复合年增长率达到39.61%。预计2024年国产化芯片产能提升,智算算力供给瓶颈将逐渐缓解。未来,AI大模型应用场景不断丰富,商用进程加快,智算中心市场增长动力逐渐由训练切换至推理,市场进入平稳增长期,复合增速降低到26.8%,预计到2028年中国智算中心市场投资规模有望达到2886亿元。
- 互联网企业及云厂商成为智算中心布局的主力
从智算中心算力规模来看,互联网及云厂商在智算中心投资建设中占据重要地位。科技巨头在人工智能计算中心的建设中扮演重要角色,许多大型科技公司如阿里巴巴和腾讯,都在人工智能计算中心投入大量的资源。以算力规模来看,互联网及云厂商占据了30.9%的算力中心布局,其次为运营商,占比为23.2%。不同主体的智算中心功能定位及布局诉求存在差异。政府主导建设的人工智能计算中心主要服务于地方人工智能大模型研发应用及相关领域数字化转型,基础电信运营商投资建设的智算中心成为政府算力基础设施的良好补充,承担国家算力网络建设任务的同时满足自身算力需要及算力业务拓展需求。大型云厂商如腾讯云、阿里云、百度云等,具有完善的供应链资源、扎实的技术能力以及丰富的客户资源,出于满足集团AI发展需求及云业务拓展考虑,建设智算中心。此外,浪潮、协鑫等产业上游供应商,商汤等AI科创企业,理想、小鹏等下游应用企业等基于产业链价值延伸和日常业务需要布局智算中心。互联网及云厂商建设的智算中心规模较大,多为万卡集群,智算中心具备大规模、可扩展性、绿色化等特征,满足互联网及云业务长远发展需求。AI大模型所带来的算力需求的快速增长使得互联网云厂商将逐渐成为国内算力中心布局的绝对主力。
智算中心服务包括机房托管服务、算力租赁服务、AI平台服务、模型定制服务及AI应用服务。机柜托管以及算力租赁服务是当前智算中心市场的主流商业模式。在产业发展初期,智算中心一般为算力用户和传统IDC客户提供机柜托管服务,机房托管服务与传统数据中心服务模式类型相同,但需要面向智算的特点进行深度定制。算力用户的服务器由用户自行解决,这类用户多为云厂、AI企业、高校或科研机构,通常单次采购规模较小。智算算力租赁业务的兴起一是由于短期内智算资源供给能力不足,特别是以GPU为代表的AI芯片的紧缺;二是自建智算中心投资规模大、运维能力要求较高,算力使用综合成本高。大多数中小企业在发展AI模型和应用的过程中面临算力瓶颈,算力租赁业务迎来发展机遇。在租赁的算力中,约80%被用于大型模型的训练,约20%则用于小模型的训练和推理任务。在区域分布上,60%的智算需求集中在北上广深一线城市。
乘“数”而上,暖通行业借势腾飞
- 传统数据中心冷却包括风冷以及水冷
作为传统的散热方式,风冷系统通过空气流动带走热量。在AI智算中心出现以前,风冷系统广泛应用于传统数据中心的制冷方案中,液冷只在超算中心中有所应用。风冷系统在机房内用空气媒介制冷,在室外以风冷式和水冷式两种冷水机组带走空气中的热量。2012年以前,早期运营商、金融、互联网等机房规模较小,以风冷直膨式精密空调为主,先冷环境,再冷设备,气流组织较差,各自控制互相干扰,整体能效非常低,PUE在1.8-2.5之间。2012-2018年,运营商、互联网、金融、第三方运营公司开建大型及超大型数据中心,冷源采用集中式水冷冷水空调系统为主,通过冷却塔、板换进行自然冷却运行;缺水地区采用集中式风冷冷水空调系统,配套自然冷却功能;结合多种末端使用,如房间级空调、列间空调、冷板空调、背板空调等,整体能效得到较大提升,PUE在1.25-1.5之间。2019年开始,国家和地方密集出台相关政策,新建大型、超大型数据中心PUE要求先从1.4到1.3再到1.25、1.2,示范型绿色数据中心PUE要求1.15,出现蒸发冷、液冷等多种新制冷系统。未来新建的数据中心。
数据中心冷却市场空间逐渐增加。数据中心的冷却是保证数据中心安全稳定运行的关键环节,随着数据中心的数量的快速增加,数据中心冷却的市场空间逐渐增加。根据Horizon的数据统计,2020年数据中心冷却的市场空间仅有30亿美元,但到了2023年已经上升到了44亿美元,预计2030年数据中心冷却的市场空间将上升到88亿美元。数据中心冷却市场的景气也将为相关设备以及服务供应商带来更多产业机会。
- 低PUE要求使得风冷技术不断迭代
间接蒸发冷,新建风冷数据中心的首选
随着数据中心对于PUE的要求逐渐提高,间接蒸发冷的渗透率逐渐提升。在蒸发冷却过程中,水在空气流中蒸发,并从液相变为气相,来自周围空气的显热在该过程中用作蒸发水所需的潜热——空气中的能量损失导致空气温度降低。这种冷却方法可以使用比典型制冷过程少得多的能量来降低空气温度,由于能耗低,其在炎热干燥的气候中非常流行。蒸发冷却技术分为直接蒸发冷和间接蒸发冷两种。直接蒸发冷却是指冷却介质直接与被冷却物接触,通过水的蒸发来吸收被冷却物的热量,从而实现冷却的过程。间接蒸发冷却则是指室外空气先经过直接蒸发冷却,降低温度后,再通过换热器与需要冷却的室内空气进行热交换,从而实现室内空气的降温,同时室内空气的湿度不变。直接蒸发冷却适用于需要快速降温的场合,例如空调系统中的蒸发器;而间接蒸发冷却适用于需要精确控制温度的场合,例如工业生产中的冷却系统。间接蒸发冷能从自然环境中获取冷量,PUE更低,因此其渗透率在不断提高。
间接蒸发冷却是指通过非直接接触式换热器将二次空气的冷量传递给待处理空气(一次空气)实现空气等湿降温的过程,二次空气可为室外低温新风,也可以是直接蒸发冷却得到的湿空气。间接蒸发冷却系统由喷淋装置、换热芯体、室内风机、室外风机、机械制冷补充装置、控制系统等组成,运用机组只需要在数据中心现场安装风管、水管及配电后即可投入使用。间接蒸发冷有干模式、湿模式、混合模式三种运行模式,运行模式切换取决于室外空气的干球温度和湿球温度,而室外干湿球温度判定的界限又取决于数据中心机房送、回风温度与间接蒸发冷却换热芯体的换热效率。间接蒸发冷利用空气-空气换热器实现室内空气与室外空气的换热,同时可以通过喷淋蒸发降低室外湿球温度,相比较传统水冷系统减少了换热环节,室内没有末端,在数据中心的墙上开设通风管道,将冷风吹入室内进行冷却。
一体式氟泵:更加节能的风冷方案
一体式氟泵利用氟泵和压缩机的混合制冷模式实现更低的PUE。一体式氟泵包括三种冷却方式:全压缩机模式、完全自然冷模式和混合模式。全压缩机模式用于夏季等室外温度较高时,采用常规的蒸汽压缩进行制冷。室外温度低于设定点时采用完全自然冷模式,制冷系统通过阀门自动切换到氟泵循环,停用压缩机,采用功率小的氟泵推动冷媒进行强制对流循环。室外环境温度略低于设定温度时采用混合模式,压缩机和氟泵同时工作,压缩机处于变频运行状态,转速较慢。氟泵推动部分制冷剂循环,压缩机也参与部分制冷循环,两者协同工作,在保证制冷效果的同时达到节能目的。以依米康氟泵节能间接自然冷却机组为例,室外10°C以下时,氟泵可以达到100%制冷量,提升自然冷源利用时间;相比普通列间定频机组,其在北方地区全年节能率40%-60%以上,混合运行时,压缩机变频调节,部分负荷节能38%以上。相比间接蒸发冷,虽然一体式氟泵有更好的节能效果,可以有效降低机房的PUE,但投资成本更高。
- 冷冻水水冷,数据中心高效散热之选
冷冻水水冷的风冷换热主要包括冷冻水系统和冷却水系统,主要设备包括冷水机组、冷凝器、蒸发器、冷却塔、冷却水泵和控制器等。冷冻水循环系统由冷冻泵及冷冻水管道组成,从冷水机组流出的冷冻水由冷冻泵加压送入冷冻水管道,在房间内进行热交换,带走房间内的热量。冷却水循环系统由冷却泵、冷却水管道及冷却塔组成。冷水机组进行热交换,使水温冷却的同时,必将释放大量的热量。冷却泵将高温冷却水压入冷却塔,使高温冷却水在冷却塔中与大气进行热交换,然后再低温的冷却水,送回到冷水机组。冷冻水水冷在封闭的制冷系统中反复地将制冷剂压缩、冷凝、膨胀、蒸发,不断的在蒸发器处吸热汽化,进行制冷降温。虽然间接蒸发冷可以利用室外冷空气进行冷却,考虑到在极端天气下室外的冷空气并不一定可以满足间接蒸发冷的需求,间接蒸发冷的设计方案仍然需要机械补冷;而机械制冷的冷却方式在更热的环境下具有更好的冷却效果,因此除了在某些季节满足自然冷却的地区外,冷冻水水冷是更有效地散热选择。
对比冷冻水水冷和间接蒸发冷,间接蒸发冷的优势主要在节能方面,但在成本、安全性等角度冷冻水水冷有一定优势。冷冻水水冷冷凝器与外界环境属于二次换热,蒸发冷与外界环境属于一次换热,因此蒸发冷可以获得更小的换热温差,因此设计冷凝温度能低3-5℃,在设计工况下,效率相差3-5%。冷冻水水冷设备初投资较低,同等品质的蒸发冷和水冷(包括冷却塔+水泵+冷凝器)价格相比,蒸发冷的价格是水冷的2.5倍左右,蒸发冷一体机将设备全部置于室外,机组的防护等级提高导致整机的造价及维护成本提高,同时面临更高的施工成本、土建成本等,但蒸发冷也节省了循环水泵的功耗。
冷水机组是冷冻水水冷的核心设备。冷水机组制冷系统由压缩机、冷凝器、节流器、蒸发器四部分组成。压缩机吸入来自蒸发器的低温低压的氟里昂气体,压缩成高温高压的氟里昂气体,在冷凝器中冷却为低温高压液体,然后流经热力膨胀阀,节流成低温低压的氟里昂起液两相物体,然后低温低压的氟里昂液体在蒸发器中吸收来自室内空气的热量蒸发,进行下一轮循环。
受益数据中心行业火热,冷机压缩机行业景气度上行。冷水机组压缩机被广泛应用于工业、轨交、大型商用建筑、数据中心等行业。受到房地产行业景气度下行等不利因素,冷机压缩机行业近年呈现缓慢下行的趋势。但数据中心行业的火热为冷机压缩机行业带来了新的契机。江森自控(约克)、开利、大金(麦克维尔)、特灵是全球主要的四家冷机压缩机整机的供应商,从这四家压缩机企业的财报上看,数据中心行业的需求推动了冷机压缩机行业的复苏。江森自控2025Q1净利润同比增长12%,公司表示暖通业务显著受益于数据中心需求量的增长,公司新上任的CEO表示一季度订单达到了16%,为历史最高的增速。特灵空调只做暖通业务,2024年公司营收同比增长12.2%,净利润同比增长26.88%。大金的子公司麦克维尔主要从事压缩机的研发和销售业务,2024年大金实现营收47700亿日元,同比增长8.53%,暖通空调业务(HVAC)营收同比增长10.99%。开利24年暖通空调业务营收同比增长26.02%,同时公司表示HVAC积压订单在三年内增长了70%。由四家全球头部的冷机压缩机企业的财报端看,未来2-3年内冷机压缩机将受益数据中心需求增长而逐渐出现供给紧张的情况。
磁悬浮冷水机组渗透率逐渐增长。工作时,电机带动螺杆高速旋转,通过同步齿轮驱动女螺杆反向转动,气体由吸气口进入螺杆间的腔体,随转子旋转不断向排气口移动,同时腔体容积逐渐缩小,气体受到压缩,最终以高压状态排出。离心压缩机的核心部件是高速旋转的叶轮,气体经进气导叶引入叶轮,在离心力作用下沿流道加速流动,动能显著增加。气体离开叶轮后,经扩压器将动能转化为压力能,从而实现升压,多级串联可获得更高的压比。磁悬浮压缩机是离心式压缩机的一种。磁悬浮制冷压缩机应用了磁悬浮轴承技术,即通过利用电磁力使压缩机的转子悬浮在磁场中,实现了无接触的运转。传统的压缩机需要通过机械轴承来支撑转子,摩擦会带来能量损耗和噪音;而磁悬浮压缩机通过磁力悬浮,大大减少了能量损耗和噪音产生,提高了系统的效率和可靠性。磁悬浮离心冷水机组在部分负荷运行条件下,峰值效率COP高达12,比其它冷水机组节电率高达35%。随着能源消耗和环境保护的需求增加,磁悬浮压缩机将会成为替代传统压缩机的重要选择。
液冷:智算中心冷却的“法宝”
- 智算算力单机柜功率提高,传统风冷已无法满足制冷需求
随算力需求的提高,芯片TDP逐渐提高。大模型训练以及推理对于芯片性能提出了跟高要求,同样功耗和散热量也在不断攀升。相应数据中心单机柜的热密度将会大幅度的快速提升,智算中心机柜呈现高密度化趋势。以英伟达的芯片为例,A100的单颗芯片的功率为400W,H100、H200单颗功耗大幅提升,H100达700W,GB200达2700W,从芯片到服务器再到机柜,功耗数量级显著提升。2024年发布的搭载B200芯片的NVL72液冷机柜功率密度已经达到了120kW。随着芯片算力的提升,单颗芯片的TDP(ThermalDesignPower,热设计功耗)逐渐升高,对机房的散热性能也有了更高的要求。
- 低PUE适应能效标准,优越散热能力应对芯片TDP提高
降低暖通空调系统的能耗是降低PUE的关键步骤。PUE是数据中心总能耗与IT设备总能耗的比值,其中数据中心总能耗包括IT设备能耗和制冷、配电和照明等系统的能耗。2018-2020年间,北京、上海、深圳等一线热点城市纷纷出台相应的控制政策,包括严格限制新建数据中心的PUE、采用“减量替代”等方案。2022年1月,国务院印发“十四五”数字经济发展规划,随后国家发展改革委会同相关部门推进“东数西算”工程实施,强化数据中心绿色发展要求,强调大型、超大型数据中心PUE降到1.3以下,并在给多个算力网络国家枢纽节点启动的复函中,都将PUE指标控制在1.25以内;同年11月起在全国范围强制实施的国家标准《数据中心能效限定值及能效等级》要求一级能效数据中心PUE值至少控制在1.2以内。根据《数据中心间接蒸发冷却技术白皮书》中的分析,PUE=1.9的机房当中,暖通空调的能耗占比高达38%,而PUE=1.3的机房中,暖通空调的能耗占比为17.4%,所以降低暖通空调功耗的降低是PUE降低的关键。
相比风冷方案,液冷方案有更低的PUE。根据《中兴通讯液冷技术白皮书》,风冷方案的极限PUE在1.15左右,单机柜的风冷极限在15kW。液冷方案中的单相冷板技术可以将PUE降低至1.12左右,浸没式液冷方案的PUE能达到1.1以下。相变浸没式液冷可以将PUE降至1.03甚至更低。在这三项液冷技术中,单相冷板液冷式应用最为广泛液冷技术,虽然可以达到的PUE并没有浸没式液冷低,但也足以满足机房的需求。单相浸没式液冷虽然不是新技术,但是由于成本较高等问题,应用案例相对较少。两相浸没是在单相浸没的基础上,增加了浸没液中的相变,由于存在相变潜热,散热性能更高,可以达到的PUE也更低。但是相变的存在对于设备的要求极高,在国内只有中科曙光的超算中心有两相浸没的技术储备。
PUE与散热性能不能相提并论,更低的PUE意味着更高的能效,但并不意味着有更强的散热性能。理论上风冷的间接蒸发冷以及氟泵技术极限情况下可以获得比单相冷板在某些应用场景下更低的PUE,因为可以使用更加节能的间接蒸发冷空调或氟泵,但芯片的发热问题并不能因为使用更加节能的技术而得到结局,所以在芯片TDP逐渐提升的过程中,可以达到更佳散热效果的液冷技术的渗透率必将逐渐提升。5~10W/cm2左右的热流密度已经达到了风冷式散热技术的极限,更高的热流密度非常容易导致大量热量无法及时排出芯片。采用风冷的数据中心通常可以解决15kW以内的机柜制冷,随算力需求的提升,搭载智算芯片的机柜功率密度已超过15kW,已经达到了空气对流散热能力的天花板。液冷技术作为一种散热能力更强的技术,可以支持更高的功率密度,散热能力远超风冷,液体的导热系数约为空气的15-25倍,比热容甚至为空气的1000-3500倍。液冷散热技术在换热方面表现出了风冷式散热技术远远达不到的优越性能,所以未来单机柜功率密度提升的背景下,液冷的渗透率必然提高。
- 单相冷板:最成熟的液冷技术
冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。单相冷板液冷是通过将冷板贴在芯片背面的方式,利用冷板中的液体与芯片间接换热的方式进行芯片的冷却。在机柜外,单相冷板通过CDU实现一次侧与二次侧的换热,通过液冷板将发热器件的热量间接传递给液冷板中的二次侧冷却液。在冷板和CDU中,冷却液不涉及到相变的过程。根据液冷板覆盖范围,单相液冷可以分为局部液冷或全液冷,局部液冷通常仅覆盖高功耗器件,一般带走设备70%左右的热量,剩余30%热量仍需通过机房空调或液冷背门以风冷的形式带走;全液冷需要根据通信设备硬件架构和结构布局定制化设计液冷板,以覆盖所有发热器件。但由于内存等柜内的其他电子元件并不像芯片的形状标准,所以一般情况下液冷的机房仍需要备用一定比例的风冷将除芯片外的电子元件以及机房内其他发热设备的热量带走。
冷板式液冷系统设备包括服务器内的冷板、快接头UQD,二次侧的CDU、Manifold、管网,以及一次侧的冷水机组和冷塔等。冷板是与芯片接触实现换热的核心部件,冷却液在内部流动将芯片热量带走。快接头UQD是用于节点冷板模组和液冷机柜集分水器之间的水路连接接头。由于冷板是贴在芯片背面的,一旦漏液将会波及到机柜内部的电子元器件,所以柜内的冷板以及快接头的性能要求极高。液冷CDU(冷量分配单元)是冷板式液冷系统二次侧的循环换热中心,主要功能是为二次侧工质提供再冷却和循环动力,并对整个二次侧系统进行集中控制。服务器液冷管路是输送冷却工质的通道,需要采用耐高温耐高压FEP波纹管或EPDM材质软管,设有漏液检测绳检测漏液、与冷板采用宝塔头连接或卡箍紧固实现可靠密封。Manifold分水器是主要用于连接液冷机柜CDU与冷板之间的主管路,通过特定的管道设计和结构,将冷却液体作为冷却介质,通过管道高效的分流至各个需要冷却的服务器或设备,其内部通道设计精确,确保冷却液体能够均匀、快速地流过每个散热单元。根据风冷补冷的技术选择,室外侧可以为间接蒸发冷,也可以是冷冻水水冷,但室外侧均需要冷水机组对室内的冷却液进行冷却。所以无论是风冷还是液冷技术,冷水机组都是必不可少的设备。从设备端看,在室内侧液冷相比风冷对设备的技术性能要求更高,技术壁垒也更高。
冷板:芯片冷却的排头兵
液冷板是带有内部流体通道并允许冷却工质流过的热交换器或散热器。冷板安装在需要冷却的电子元器件热表面上,是将元器件产生的热量通过液体冷却工质传递到冷量分配单元的板式热交换器。冷板基本结构形态包括散热模块和固定模块,固定模块设计应最大限度满足扣合力正压冷板。冷板冷却从第一代远端散热,到第二代穿透式散热,到第三代的嵌入式散热,实现冷板冷却效果的量级提升。快接头UQD是用于节点冷板模组和液冷机柜集分水器之间的水路连接接头,分为手插快接头和盲插快接头两种形态。手插接头操作依赖机房运维人员,服务器和机柜易于解耦;盲插快接头插拔具备自动化保障,操作方便,连接精度高,但服务器和机柜解耦难度大。冷板和快接头UQD位于服务器内部,所以一般是服务器厂商进行采购,并不和机柜外的液冷系统如CDU、manifold一同招标采购。
CDU是一次侧二次侧换热的桥梁
冷板式液冷系统中通过CDU隔离一次侧和二次侧回路,并完成一次侧和二次侧的热交换。CDU是柜外液冷系统中的核心设备,机组由液-液换热器、二次侧水泵、管路组件、传感器、配电控制箱等主要部件以及过滤器、稳压装置、自动补液装置等辅助功能模块组成,以机柜的形式布置于室内。液冷CDU作为冷板式液冷系统二次侧的循环换热中心,主要功能是为二次侧工质提供再冷却和循环动力,并对整个二次侧系统进行集中控制。根据CDU的形态和部署位置,可分为集中式CDU和分布式CDU两种。集中式CDU的单台CDU可以同时为多个服务器机柜提供制冷能力,可以通过多台CDU集群实现N+M的冗余能力,可靠性高,适用于规模部署液冷服务器机柜的场景;分布式CDU免二次侧管路安装,单台CDU只为所在机柜服务器提供制冷能力。但目前运营的数据中心中多以集中式的CDU为主,分布式CDU有望在未来成为发展趋势。
液冷一次侧设备与水冷的室外侧设备基本重合
对于液冷二次侧末端不同的水温需求,液冷一次侧冷源可采用机械制冷系统和自然冷却系统。机械制冷系统包括风冷冷冻水系统和水冷冷冻水系统,可提供12-18℃的中温冷冻水。风冷冷冻水系统主要由冷水机组、冷冻水泵及配套设施组成;水冷冷冻水系统主要由冷水机组、冷冻水泵、冷却水泵、冷却塔及配套设施组成。由于冷板式液冷服务器中冷板多数仅覆盖CPU、GPU等高功耗发热部件,其余部件常以风冷辅助冷却,服务器仍需配置冷板及风扇两套冷却部件,数据中心需要配置CDU和空调两套冷却系统。液冷一次侧冷源形式需结合二次侧末端水温需求和项目地室外环境情况确定,但液冷一次侧设备与水冷室外侧设备基本重合,因此如果二次侧选择了冷冻水水冷的方案进行补冷,就可以和液冷共用一次侧的设备,而在我国北方等气候寒冷的地区,目前多以间接蒸发冷+单相冷板的方式布局液冷项目。
根据IT设备侧与机房配套侧各自的交付内容,液冷服务器有三种交付模式。第一种模式下,以单相冷板为例,一次侧的冷塔、水泵、冷水机组由甲方即租赁商或者承建方提供,二次侧环网+manifold+CDU单独招标,冷板以及UQD等机柜内部分由服务器供应商提供,整体交付责任界面较清晰但对搬运空间和运输通道承载要求更高。第二种模式下大型液冷机房、基础设施已经完备、已完成集中式CDU及机房内二次侧管路布局,IT设备侧只需采购交付液冷服务器+液冷机柜及内部配套部件,这种模式兼容性对接内容较少。第三种模式下IT侧只负责液冷服务器和接头,其他配套全部由省公司统一建设,这种模式应用案例极少,产品成熟度较低。目前第一种招标模式占绝大部分,一次侧由承建数据中心的租赁房负责招标,二次侧则由独立的液冷系统供应商(如英维克、申菱环境等)设计、提供设备以及安装,冷板以及UQD则由液冷服务器厂商单独招标购买。
目前中国液冷数据中心的规模化应用仍处于初级阶段。2015年,中科院大气物理研究所“地球数值模拟装置原型系统”率先用冷板式液冷服务器,为国内大规模使用首公开案例。2018年,腾讯数据中心联合星星海实验室展示光伏、液冷技术应用,液冷冷板使T-block年均PUE降至1.10。2017年底签约、2018年10月运行的山西先进计算中心“硅立方”系统采用冷板式液冷,能耗降约40%。京东云华北(廊坊)数据中心用整机柜冷板式液冷技术,实现芯片级冷却,PUE低于1.1。四川能投天府云数据产业基地项目采用冷板式液冷等技术,实现PUE小于1.25。中联数据集团大同阳高数据中心为字节跳动专用机房,末端尝试了多种冷却方式,最终确定间接复合直接蒸发冷却技术节能效果最佳。目前中国冷板式液冷主要应用于对计算密度要求极高的场景,如超级计算中心和部分先进的互联网企业数据中心,未来冷板式液冷会在其他领域有更多应用。
预计2028年液冷服务器市场空间将达到102亿美元。随着智算算力对于芯片的要求越来越高,配套的液冷服务器以及液冷机房的比例也逐渐增加。根据IDC的数据统计,2024年上半年,随着数据中心基础设施更新周期加快和智算基础设备建设加大投入等因素的催化,IT设备采购周期提前,从而带动液冷服务器产业开始加速发展。中国液冷服务器市场在2024上半年达到了12.6亿美元,与2023年同期相比增长98.3%,其中液冷解决方案仍以冷板式为主,占到95%以上。IDC预计2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。随着华为、寒武纪等芯片厂商相继推出更高算力能力的芯片,未来配套液冷服务器的市场规模必将持续高增。
- 浸没式液冷:更低的PUE以及更高的成本
浸没式液冷可以提供更低的PUE,但代价是更高的成本。顾名思义,浸没式液冷是将机柜浸泡在液体(氟化液)当中,直接吸收设备产生的热量。通信设备竖插在浸没机柜内,CDU循环泵驱动二次侧低温冷却液由浸没机柜底部流入,流经IT设备时带走发热器件热量,吸收热量升温后的二次侧冷却液由浸没腔体顶部出口流回CDU,通过CDU内部的板式换热器将吸收的热量传递给一次侧冷却液,吸热升温后的一次侧冷却液通过外部冷却装置(如冷却塔)将热量排放到大气环境中,完成整个冷却过程。浸没式冷却能够显著提升数据中心的性能,其冷却能力可达每个槽体100kW,适用于42U或52U机柜的高密度计算需求。这种技术吸收了IT组件产生的全部热量,无需空气冷却单元,减少热传递步骤,从而提高了能效。单相浸没技术通常使用高沸点的冷却液,这类冷却液不发生相变同时需要具有高绝缘、低黏度以及良好的兼容特性,例如氟碳化合物和碳氢化合物(矿物油、合成油等)。氟化液/油类等冷却介质由于介质比热容及流速有限,导致散热密度相对一般,相比冷板的优势没有十分明显,并且由于使用了价格昂贵的氟化液,从成本端看浸没式液冷更高,所以在可以满足目前冷却效果的前提下,冷板是液冷项目的首选。
浸没式液冷从成本端看相比冷板劣势明显。浸没式液冷系统主要包含液冷机柜(Tank)、CDU、冷却液及连接管路,除此之外还包括槽体、热交换器、泵、流量调节阀、过滤器等零部件。冷却液是浸没式液冷的关键原材料之一,主要可分为氟化学物质(或氟碳化合物)和烃类。目前,芳香族物质、硅酸酯类(25R)、脂肪族化合物、有机硅及氟碳化合物等都被尝试应用于直接接触冷却。当前液冷产业尚未规模化,服务器与机柜间没有统一的接口规范标准,各厂商服务器、冷却液、制冷管路等产品形态各异。浸没式液冷技术的广泛应用需要一套完整且便捷的应用解决方案作为支撑,涵盖从设备的上下架、运维管理、清洗操作到溶液处理等多个方面。所以不仅是设备的投资成本,从运维的角度看浸没式液冷相比冷板也冷同样更高。同时由于Tank均是标准化设计的产品,如果后续机柜要更换成功率密度更高的机柜,Tank也需要同步更换,机房的兼容性也不如单相冷板技术。
浸没式液冷主要用于超算中心。2011年,中科曙光率先对服务器液冷技术展开实验室研究,于2013年完成了首台冷板式液冷服务器原理机和首台浸没式液冷服务器原理机验证,2015年实现液冷服务器大规模商业应用项目落地。2016年以来,国内数据中心浸没式液冷技术的发展加速,中科曙光、阿里巴巴、华为、联想、浪潮等均开启了浸没式液冷技术的相关研究工作。2018年,阿里巴巴在张北数据中心部署了浸没式冷却系统,同年联想也发布了“海神”液冷新技术。2019年中科曙光实现全球首个“刀片式浸没相变液冷技术”部署应用,其单机功率密度可达160kW,液冷部分PUE低于1.1。2020年9月,阿里巴巴浙江云计算仁和数据中心正式投入运营,它是全球规模最大的全浸没式液冷数据中心,也是我国首座绿色等级达5A级的液冷数据中心,PUE仅有1.09。2024年1月,坐落于武汉光谷未来科技城的中国电信中部智算中心正式投产运营,该项目可提供200P的算力,首次采用基于国产AI基础软硬件平台的方案架构,通过独特的嵌入式液冷单元,盲插总线架构,实现全场景PUE≤1.15,在达到业内一流绿色节能环保水平的同时,可支持部署万亿参数大模型。但由于成本更低,技术更加成熟的单相冷板技术仍可以满足目前的芯片散热需求,浸没式液冷在智算中心的渗透率不会快速增长。
上一页
上一页