日前,在中国IDC圈与京东云联合主办的“京东云直播活动——智算专场”迎来第二场直播:【大模型时代,我们需要什么样的智算中心?】,中国信息与通信研究院产业与规划研究所副总工程师王青与京东云裸金属产品研发负责人徐梓耀两位嘉宾,带来大模型时代的算力新需求、智算中心特点、软硬件及运维新需求等分享。
大模型时代 算力新需求
图文生成、无人驾驶……ChatGPT横空出世至今不到两年的时间,大模型已经从实验室走到产业化,背后离不开算力支持。
业界戏言“无算力不模型”。在直播中,中国信息与通信研究院产业与规划研究所副总工程师王青分析,大模型带来的算力需求变化主要体现在规模、性能和异构性等方面。
首先,大模型的参数规模与对算力的消耗成正比,参数规模越大,对算力的需求越大,随着大模型参数量从千亿迈向万亿,未来万卡集群成为新一轮大模型基建赛道竞争的配置。
其次,大模型对算力性能的提升需求迫切,包括:①加速芯片和微架构创新等使得芯片能支撑更高精度的计算和更复杂的算法,提升大模型训练效率。②智算中心部署层级分为芯片级、单服务器节点级、多服务器集群级,大模型发展对智能算力扩展性提出高要求,多以服务器单点或集群模式部署以提供并行计算能力。③软件优化,通过强化大模型加速库能力建设,向用户提供高效编程接口、优化编译器等工具,提升算力效率和性能。
最后,随着大模型应用不断拓展,对异构算力的需求也日益增加,并且涵盖GPU、CPU、NPU等多种芯片类型、多种算力类型,以及国内外芯片结合等多样化算力需求。
京东云裸金属产品研发负责人徐梓耀通过对芯片、服务器、多服务器集群三个层级的分析,指出:智算服务的本质是利用IDC中的“分布式智能计算”环境,通过“互联网”为客户提供“本地化体验”的“智能计算服务”能力。
从传统数据中心到智算中心大不同
大模型带来算力需求变化的背景下,以通用算力为主的算力格局迎来改变,智能算力成为增长主力,作为算力的物理承载,传统数据中心也向智算中心演变。
与传统数据中心相比,智算中心有何不同?
王青与徐梓耀两位嘉宾一致认为,主要集中在计算、网络和存储三方面。
王青认为,大模型参数量和训练数据复杂性快速增长,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展集群系统,以满足AI大模型的训练需求。整体来看,智算基础设施的部署涉及计算、网络、存储三大维度的横向协同,也需要兼顾软件平台与硬件资源的纵向协同。
徐梓耀表示,对于智算在计算、网络、存储三方面的变化,京东云都有相应产品与解决方案满足。
第一,在计算方面,智算服务对IDC机柜的配电要求更高,需要进行定制改造满足不同AI服务器的需求。为此,京东云推出 “阿尔法”T系列(风液型)与L系列(液冷型)两种智能算力模块,分别可满足算力密度20-50kW/柜与20-100kW/柜以上数据中心部署需求。智能算力模块均采用预制化模式,最快45天交付,支持47U-60U。其中L系列采用全预制化+冷板液冷系统,液冷机柜、CDU及室外冷却设备等配置完善,可支持最高100KW/机柜功率密度。
第二,在网络方面,智算服务要支持百亿、千亿甚至万亿参数的深度学习大模型,对数据中心网络提出更高定制要求,除以太网外,支持RDMA能力的高速无损IB网络或RoCE网络是强需。
他介绍,京东提供算力网络定制服务能力,H100/H800卡建议使用400G IB网络,机器8张400G IB网络满配;A100/A800 卡建议使用200G网络,IB或者RoCe都可以。
第三,在存储方面,智算服务需要海量的训练数据,对数据中心的存储系统也提出定制需求,高性能的共享存储也成为标配。
京东自研的存算分离的分布式存储系统——云海,屏蔽底层存储的异构(支持国产),实现数据的同意存储与管理,EB级存储容量、万亿级可管理的文件数量,适配国产服务器。云海有两种产品形态,公有云上为云海统一平台,也提供私有化部署云海存储一体机。
此外,徐梓耀还介绍了京东云融合智算服务,以及满足智算中心绿色节能低碳运维需求的智能精维平台。平台分硬件节能与运维节能两个层面,其中运维节能的相关产品——节能宝,能将传统数据中心能耗降低15%左右,节能效果十分客观。
当天直播中,王青与徐梓耀两位嘉宾还围绕智算中心主要用户与应用场景、智算格局与未来发展、通用数据中心的改造等话题,带来了深入分析与内容分享。