在算力需求井喷的今天,数据中心作为数字经济的基石,其能效与可持续性成为了行业关注的焦点。作为云计算领域的佼佼者,京东云在为广大用户提供稳定、高性能服务的同时,也致力于实现智算的绿色、可持续发展。近日,京东云通过一场现场探访直播,全面展示了京东云在算力基础设施可持续发展方面的独特优势与创新实践。
智算基础设施挑战与突破
随着人工智能、大数据、云计算等技术的飞速发展,算力需求呈爆炸式增长,也对算力基础设施提出了前所未有的挑战。高负载、高能效、高可用性,已成为对当前智算中心的基础要求。
“智算中心相对于传统数据中心来说,要满足集中化、高效化和快速化三个特点。”参加京东云“疯狂星期四”直播的嘉宾,中国电子工程设计院数据中心事业部设备所所长沈晓朋表示,随着AI大模型的竞争日益激烈,智算中心的建设需求与日俱增,服务器功率密度也逐年上升,这不仅要求基础设施能够快速响应,更要在能效、可靠性等方面达到新的高度。
京东云在此次直播中重点展示了其阿尔法算力模块,该模块针对高功率服务器集群量身定制,通过优化电力供应和散热系统,实现了显著的能效提升。京东云技术专家介绍,阿尔法算力模块通过风墙精密空调、热通道封闭与京东云智能京维平台三管齐下,实现了模块能耗降低30%的目标。
快速交付也是阿尔法算力模块的一大特色。在确保服务器大幅降低能耗的同时,这种模块化设计可以显著加快部署速度。据介绍,从需求确认起仅需35天,阿尔法算力模块即可完成在工厂的预制,并在10天内交付给客户,整体部署可以控制在45天内完成。
液冷技术的绿色革命
随着算力密度的不断提高,液冷作为一种更高效、节能的散热技术走入了行业视野。作为一种新兴技术,虽然具备多重优势,但在应用普及的过程中,还面临着用户的诸多担忧。
沈晓朋认为,业内对液冷应用的担忧主要集中在几个方面:首先是标准不统一带来的维护、迁移难题;其二是传统风冷数据中心的液冷化改造困难的问题;其三是部分液冷技术采用的冷却液泄露后会带来一定的环境危害;最后沈晓朋表示,液冷系统的部署成本和投资回报比,也是当前用户重点关注的问题之一。
京东云事业部AIDC业务部硬件架构专家介绍,针对这些行业普遍担忧的问题,京东云推出了自研液冷服务器,通过模块化设计和高可靠性材料的应用,成功解决了传统液冷方案的诸多痛点。
京东云自研液冷服务器经历了京东集团内部各业务的严苛考验,可以实现PUE达到1.1以下,同时支持不同算力平台的CPU、GPU核心750瓦以上的散热需求。另外通过模块化的设计,可以直接替换传统的风冷散热方案。
对于部署成本问题,京东云技术专家表示:“液冷服务器在前期硬件投入上略高于传统风冷方案,但通过长期运营中电费、运维成本的节省,只需要15个月左右就能实现总体成本的平衡,全生命周期可以实现5%左右的成本降低。”
京东云还通过现场直播,对自研液冷服务器进行了一场“拆机秀”,由硬件工程师现场拆解并详细展示液冷服务器的每一处细节。采用模块化设计的京东云自研液冷服务器拆卸维护简便,包括电源、散热器、网卡、进水、出水管等,均可以通过标准件进行直接替换。
服务赋能智算生态
除了硬件层面的创新外,在运维服务方面,京东云也屡做创新,为智算业务的发展提供了强劲动力。为更好地运维智算中心,京东云自研了智能京维平台,通过引入先进的人工智能技术,内置多个模块帮助工程师来管理、维护系统,实现对数据中心内部数千设备的高度自洽管理和自运维。
京东云智能京维平台内置节能宝模块,利用大数据分析和AI算法,对制冷系统进行精细化管理,优化设备运行逻辑,确保冷机、水泵等设备在最高效率下运行。这种智能化的运维方式不仅显著降低了PUE值,减少了能耗,还提高了数据中心的稳定性和可靠性。例如,京东云廊坊数据中心在节能宝的助力下,年均PUE降至1.19,实现了能效的大幅提升,为企业节省了巨额电费开支。
面向越来越多的智算服务需求,京东云则推出了基于高性能、低延迟的裸金属服务器的MaaS(Model as a Service)服务。通过容器化的形式,京东云将GPU算力以及预装模型、辅助工具等统一提供给客户,帮助客户更好的训练自己的大模型。
京东云的裸金属服务不仅适用于大型企业和科研机构,还通过灵活的配置和定价策略,满足中小企业和个人用户的多样化需求。例如,其推出的GCS(GPU Computing Service)产品,以极低的成本提供了高性能的GPU算力服务,让更多人能够轻松体验AI技术的魅力。