2025智博会|国内首个AI计算开放架构发布,国产智算或迎来“安卓模式”
2025-09-05 13:14
9月5日,在重庆世界智能产业博览会上,中科曙光协同AI芯片、AI整机、大模型等20多家产业链上下游企业,共同发布了国内首个AI计算开放架构,推出AI超集群系统,开放多项技术能力,并宣布依托国家先进计算产业创新中心,启动“AI计算开放架构联合实验室”建设。这一系列举措标志着中国智能计算产业进入全面开放与紧密协作的时代,或将迎来“安卓模式”。
▲9月5日,重庆悦来国际会议中心,中科曙光新一代AI计算开放架构发布。记者 谢智强 张锦辉 摄/视觉重庆
“中国智算产业要苹果,也要安卓”
当前,大模型创新持续演进,对AI算力的需求不断增加。然而,国内AI算力领域仍面临高端算力供给不足、国产加速卡性能差距大、算力成本高、自主软硬件生态不成熟等严峻问题。发展更大更高效的智算集群,弥补单卡性能差距,成为重要创新方向,AI超节点、大集群等产品方案迭代升级,以网联算、以存提算、以电补算、软硬协同等新思路新方法不断投入实践。
为突破算力瓶颈,同时降低用户成本,发展好产业,仅仅依靠少数巨头企业的封闭式全栈垂直优化,已远远不够,还需要开辟新的路径模式,尤其是要把产业链上的大量企业组织起来,实现开放式的跨层协作优化,打造开放式、标准化、高效率的集群算力。中科曙光高级副总裁李斌在发布会上表示,过去十年,中科曙光在国内先后建设了20多个大规模算力集群,累计部署超过50万张异构加速卡,同时又是国家先进计算产业创新中心的牵头组建单位,有技术、有能力,也有责任来推动AI计算领域的开放协作与生态构建。“国内的智算产业,就像智能手机圈一样,不仅需要苹果这类大企业,还需要安卓式的生态创新模式。”
AI计算开放架构是面向大规模智能计算场景,以GPU为核心进行高效率紧耦合系统设计的协同创新体系,旨在联动芯片、整机、大模型、行业应用等产业链上下游企业,从“算、存、网、电、冷、管、软”单点突破走向集群创新,进行开放跨层协作优化,突破算力瓶颈,促进算力普惠。该架构应具备多元算力、高速互连、存算协同、绿色高效、稳定可靠、生态繁荣等主要特征。
曙光AI超集群系统,支持多品牌加速卡
基于AI计算开放架构设计的曙光AI超集群系统也随之推出。中科曙光总裁助理、智能计算产品事业部总经理杜夏威在专题发布会上表示,曙光AI超集群系统拥有“超高性能、超高效率、超高可靠、全面开放”四大亮点特征,可为万亿参数大模型训练推理、行业大模型微调、高通量推理、多模态大模型开发、AI4S等场景打造更大更高效的算力底座。
曙光AI超集群单机柜支持96加速卡、百P级AI算力,最大可实现百万卡超大规模集群扩展。通过存算传协同设计、“超级隧道”AI存储优化、先进冷板液冷、软硬协同设计、智能调度大模型等多项技术创新,实现了系统性能效率大幅提升,实测千卡集群大模型训推性能达到业界主流水平2.3倍,模型开发效率提升高达4倍,GPU算效增加55%,平均无故障时间(MTBF)提高2.1倍,平均故障修复时间(MTTR)降低47%,多项指标达到业界领先水平。而且,与专有封闭系统相比,曙光AI超集群可适配支持多品牌GPU加速卡,兼容CUDA等主流软件生态,可为用户提供更多开放性选择,大幅降低硬件成本和软件开发适配成本,保护前期投资。
联合实验室,推进开放跨层优化
为促进行业生态创新,中科曙光还联动芯片、整机等多家知名企业宣布开放一批关键技术能力,覆盖部件级、系统层、基础设施层、软件层和数据集等五个层面,以减少重复造轮子,降低中小企业研发门槛。中科曙光首批宣布开放AI存储优化能力、液冷基础设施设计规范、DeepAI基础软件栈等三项技术能力,助力合作伙伴、重点用户在AI应用存储性能加速、液冷超节点系统设计、GPU开发统一开发框架等方面获得高级别技术共享、深度定制优化与专业技术支持。
相比封闭生态,开放的产业生态涉及厂商多、产品多、链条长,系统更加复杂。针对跨厂商技术对齐难、产业协作难等问题,中科曙光还携手20多家智算上下游企业,依托国家先进计算产业中心共同启动建设“AI计算开放架构联合实验室”,以推进产业链开放跨层协作优化。联合实验室计划后续围绕芯片与底层基础软件协同优化、模型-硬件协同设计优化、关键场景跨层优化验证与示范等方向开展工作,不断破解“硬件墙”“软件墙”“生态墙”壁垒,携手共建开放、普惠的中国智能计算产业生态。
凡注明来源重庆日报的作品,版权均属重庆日报所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:重庆日报网”。违反上述声明者,本网将追究其相关法律责任。
除来源署名为重庆日报稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。