10月30日,中国大唐集团数据中心(乌兰察布)项目开工,是全国首个100%采用绿电交易的能源央企数据中心;
10月24日,腾讯韶关浈江算力中心项目启动变电站及电力外线工程监理供应商招募业务需求和规划总负荷大约247.67MW,园区配套新建220kV/110kV变电站一座及电力外线;
10月18日,博浩海门算力中心项目签约,将成为长三角最大的100%全绿电算力中心;
10月18日,九川科技灵武智慧算力科创谷项目开工建设,项目主要采用液冷、零碳操作系统等技术打造3000P算力绿色低碳数据中心;
10月17日,第十师北屯市500P智算中心项目签约,该项目选址地风光电资源丰富,符合建设智算项目选址的各项条件;
10月17日,中国移动长三角(芜湖)数据中心项目开工,是中国移动采用弹性功率设计理念、数字化交付、液冷等先进建造技术打造的中国第六代新型绿色算力中心;
……
趋势与问题
据IDC圈不完全统计,截止2024年10月31日,我国智算中心项目已超过577个,且规划投资额、规划算力规模不断增大。以10月下旬集中发布的动态来看,大多项目普遍将绿色低碳作为核心设计理念,其中:大唐和博浩等项目率先实现100%绿电使用,九川科技项目则采用零碳操作系统,中国移动推进新一代绿色算力中心建设,同时北屯市的项目选址也考虑了风光等可再生能源的就近接入。
这一趋势其实是智算中心建设的必然选择。从更长期视角来看,算力本质上是能源在数字空间的价值重构,而科技发展的核心趋势就是不断优化能源利用效率,在信息处理领域实现以更低能耗获取更强大的数据传输、处理和存储能力。这种效率提升既是技术进步的重要指标,也是实现数字经济可持续发展的关键。
当我们从智算中心建设和运营视角延伸来看电力能源问题时,至少包括三方面问题:
第一、全国智算中心工作负载;第二、新能源在智算中心中的应用;第三、智算中心GPU芯片的能耗功率。1 全国智算中心工作负载
全国智算中心工作负载情况将在很大程度上影响数据中心用电的市场格局,一方面是全国智算中心工作负载是否达到了饱和,另一方面是全国电网系统稳定可控。
全国智算中心工作负载是否达到了饱和方面,中国目前还没有遇到这个问题,但美国已经趋于饱和。美国数据中心2015年到2019年间数据中心工作负载持续增长了近2倍,但其电力需求却基本没有出现大的变化,但近几年在AI驱动下电力需求爆发,导致电力供应突然严重不足,其背后的根本原因其实并非AI耗电直接导致了数据中心用电瓶颈,而是数据中心工作负载已经在过去几年基本在云数据中心和超大规模数据中心中完成迁移,且能效提升也达到了瓶颈。换句话说,在当前的美国电网框架下,已经没有更多的云数据中心和超大规模数据中心能够承担新的AI工作负载需求了。也因此,当地很多数据中心开始选择自建电站甚至使用核电站来供应一个独立的数据中心运营,比如AWS甚至以6.5亿美元的价格购买了一个1000MW的核电数据中心园区。
从电网稳定可控方面来看,国内当前大批智算中心仍处于加速建设阶段,提前布局电力系统建设仍存在很大的余地。对于一个电力系统来说,稳定性非常重要的点,就是它的"裕度"(margin)必须大于1.1倍。"裕度"一旦小于1.1倍,就会出现一些系统性缺电的风险。当前我国在解释"裕度"这个概念时,是可控装机处以最高负荷的概念。我国的电力系统由于过去主要以化石能源为主,属于可控能源,但是随着整个电力系统的新能源比例不断扩大,波动性和间歇不可控性比例正在不断增加。
也因此,随着我国电网新能源比例的不断增大,新能源设备的电力输出能力成了电力系统中一个非常重要的考量纬度。在国际上,这个系数被称为“退额系数”(Derating Factor),而在我国新型电力系统建设中,则使用“置信出力”(反映了发电设备在特定时段内可以保证的最低出力水平)这一概念,特别是在最新的新型电力系统建设行动方案中被重点提及。
当前,我国新能源的发电量大约是传统能源三分之一的水平。但从目前海外的招标数据看,大多数新能源电力设施在实际运行条件下可靠的输出水平并不高,这是当前智算中心用电面临的重要挑战。这也是为什么在最近的"加快建设新型电力系统"的政策文件里,要求未来达到10%以上的“置信出力”。
2 新能源在智算中心中的应用
关于新能源在智算中心中的应用,有一个非常重要的事实:智算中心通常24小时不间断用电;数据中心可再生电力的主要来源于太阳能,无法持续24小时;由于空间限制和开发规划,可再生能源电厂几乎很少可以直接为数据中心供电。风能和水电是常见的替代方案,但风能也不能持续24小时发电,虽然水电可以持续运行,但很难快速增加容量,甚至无法增加。
但当前随着AI爆发,新能源在数据中心中使用已经是大势所趋。以美国为例,据专业机构预测,到2026年,美国所有数据中心每年将产生1.55亿吨二氧化碳排放,相当于370万辆乘用车的年排放量。这对电力基础设施和碳排放的影响已经非常巨大,使得所有超大规模企业都会主要关注的一个领域,它们几乎无一例外地以实现净零排放为目标,致力于让数据中心使用100%可再生能源供电。也正因为此,履行可持续发展承诺将是决定AI数据中心容量在何时何地以何种方式部署的关键因素。
在新能源发电传输中,会遇到一个比较严重的电能损失问题,据专业机构测算:每1000公里会损失3%,每3000公里会损失10%。3000公里以上损失暂时没有可靠的实际测算数据。也正因为此,在现有技术条件下,新能源发电更多需要近场使用,哪怕扩地区使用都需要承担非常高的成本,跨国成本更高,比如中国到德国,如果按地形铺设特高压,可能需要9000公里,电能损失超过50%,电价成本高过当地发电成本几十倍。
不止如此,新能源应用到智算中心,未来可能面临的另外一个问题就是电量供应问题,有业内专家举过一个例子:如果用当前主流规格的太阳能板,在新疆或西北戈壁那种阳光充足的地区,再考虑到黑夜、阴天、故障维修等因素,每平米太阳能板全年大约可以发电240度。要满足20年后的用电需求,总共需要大约2380亿平方米的太阳能板;真正施工时还有变电设施、储能电池,还要在太阳能板间留出足够的间距来维修保养,所以再把这个面积乘以3,估算出来总共需要约7140亿平方米的面积,相当于一个边长840公里的正方形区域!
3 智算中心GPU芯片的能耗功率
当前,以英伟达为代表的芯片厂商在芯片功率方面进行着持续的技术突破。最新的DGX B200更是实现了很大的飞跃。功耗达到14.3kW,比A100增加了约2.2倍,但计算性能却提升到了惊人的72 petaFLOPS,是A100的14.4倍。能效比进一步优化到0.20 kW/pFLOPS,这一数字显示NVIDIA在芯片架构和系统设计上的深度创新。显然,这种发展趋势对AI产业有着深远影响。首先,它表明在AI芯片领域,摩尔定律不仅在延续,而且呈现出更快的发展速度。其次,能效比的持续改善直接影响到数据中心的运营成本和环境影响。当我们讨论大模型训练时,更高的算力密度意味着可以用更少的服务器完成相同的训练任务,这不仅降低了部署的复杂度,也减少了整体能源消耗。这从产业经济的角度来看,也带来了显著的成本效益。
尽管如此,从当前AI对智算中心芯片能耗的需求来看,和以往互联网阶段有很大不同,因为AI中存在Scale Law(规模定律)和多模态这些和以往不同的特殊情况,也就是说每Scale Law一次或者每增加一个模态,对于Token以及参数来说,都是一个量级的增加。但芯片的能耗功率下降,还只是一个倍率的下降。两者相结合之后,整体还是呈现一个加速上升的过程。
以英伟达(NVIDIA)的H100为例,单个芯片H100的能耗要比H100的能耗更高,虽然它的算力单位能耗是下降的。因此只要英伟达的出货量在持续上升,就可以判断整个电力总需求就会呈现一个上升趋势。
总之,当前智算中心用电方面面临着多方挑战,据海外专业半导体机构simianalysis最新报告分析,智算中心行业需要以下条件:
1.鉴于持续消耗的巨大电力,电力成本要低廉,特别是随着时间推移,推理(Inference)需求只会不断增加。
2.能源供应链在地缘政治和天气干扰下要有稳定性和稳健性,以降低能源价格波动的可能性,以及能够快速提高燃料生产,从而迅速规划大规模发电的能力。
3.总体上要有碳强度低的电力结构,适合建立大量可以在合理经济条件下生产的可再生能源。
此外,该报告还指出:中国是新建发电设施的佼佼者,如果条件允许,他们可能会在建设千兆瓦级数据中心方面处于领先地位。
即将于2024年12月19日到20日在北京·首钢园(四高炉)举办的第十九届中国IDC产业年度大典,将全面探讨智算中心建设与能源应用问题,扫描下方二维码报名参会: