分享好友 最新资讯首页 最新资讯分类 切换频道
利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读
2024-12-29 22:09

芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》(下文简称《指南》)正式发布。

利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读

这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法,包括硬件设计参考管理接口规范性能测试标准,能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期,大幅节省研发投入。

AIGC时代到来,动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大,需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。

然而事实是,AI芯片的多元化发展为大模型寻找创新应用提供了机遇,但走向落地,当采用不同技术路线的AI芯片集成到AI计算系统时,企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配,这背后消耗的成本无法估量。

诚然,开放加速计算(OAI)自诞生起就锚定了AI计算基础设施的标准化,但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此,这一产业需要的是一个行之有效、落地有声的细化指南。

在OCP China Day期间,芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流,找到这则《指南》在AIGC时代下扮演的真实角色。

近日,关于GPU短缺、GPT-5可能需要3-5万张H100 GPU的讨论在社交媒体疯传,AIGC时代的算力已成“兵家必争之地”,再加上其商业化落地、产业化应用提速,AI计算能力这块基石的重要性与日俱增。

因此,为了补上AI算力的缺口,AI芯片公司相继推出各类非标准PCIe CEM的新型态AI加速芯片,越来越多创新技术路径出现,使得AI计算芯片逐渐多元化。随之而来的一大问题就是,不同技术形态的AI加速芯片无法进行标准化快速适配,产业上下游生态面临割裂风险

解决这一风险的答案可以追溯至2019年,彼时,OCP OAI(Open Accelerator Infrastructure)小组成立,这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应,并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立,在展示开放计算可行性的同时,为规避AI计算芯片多元化趋势背后的风险提供了有效解法。

不同厂商的AI加速芯片在结构、电气特性上存在显著差异,导致不同芯片需要定制化系统硬件平台,OAI小组对AI加速芯片形态进行了定义,通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台,一步步构筑起开放加速计算的生态体系,从而在AIGC时代算力需求狂飙的当下,能为企业提供可匹配其应用场景的AI算力产品方案。

OAI主要通过全球产业链协作的模式,实现产品、规范等共享的同时,推动基础设施创新,在缓解算力供应短缺的同时,进一步加速AIGC时代的技术落地。

参与其中的浪潮信息,在协同合作伙伴完成早期技术验证和经验积累的同时,也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。

因此,浪潮信息基于此前的技术积累发布了这一《指南》,《指南》的最大价值在于,一方面能帮芯片企业快速开发新形态AI芯片,节省开发周期、开发成本,并加速产品的升级和迭代;另一方面,也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。

正如浪潮信息服务器产品线总经理赵帅此前提到的,开放架构的出现就是让领先技术更快从一个行业下沉到千行百业

▲浪潮信息发布《开放加速规范AI服务器设计指南》

全面系统测试中,浪潮信息沿用了一部分AI服务器的测试用例,同时面向OAM服务器,他们将自己此前在创新实践中遇到的问题,一并进行了细化放入《指南》之中,从而增强新研发设备的稳定性和可靠性。

也就是说,要解决在AI系统生产、部署、运行过程中,异构加速计算节点的高故障率的问题,想要保证系统的稳定性,其对应的测试条件及环节要更为严苛。基于此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理,以满足AI计算系统部署的要求。

应用层面,AIGC领域加速计算系统软硬件具备强耦合性,对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验,也呈现在了《指南》中。

例如模型性能测试中,《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标,以及多机环境中重点评测的指标。

这样一来,AI芯片创企既能拥有成熟的系统平台,规避闭源生态风险,还能在这份说明书的基础上,缩短芯片开发落地适配的进程。

此外,《指南》里的四大设计原则之首就是应用导向,技术落地效果如何与应用成果密不可分,也是评判这一指南的重要因素之一。

目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。

其中,云端AI算力企业燧原科技打造了国内第一个OAM模组,是该公司2019年发布的云燧T11 PoC,2021年发布云燧T21训练OAM模组,这些基于开放加速计算标准构建的高性能人工智能训练加速模组,能在性能、部署、覆盖、运维方面具有较大优势。

随后,去年3月,浪潮信息与其联手打造“钱塘江”智算中心方案,智算中心能支撑超千亿参数规模模型的高效、并行训练。目前,这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。

除此以外,还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7,集成8颗OAM高速互联的Gaudi 2加速器……

无一例外,这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者

当下,诸多应用成果、符合OAM标准的设备出现,都展示了开放加速计算技术的可行性,并以此辐射出完整的生态体系。

AI加速计算系统的规范体系正在逐步确立、完善,面向AIGC领域的设计指南也更加全面、细化,为AIGC浪潮下算力供需难题提供了有效的解决方案。

下一步AIGC时代会迸发出什么样的创新应用,通往通用人工智能时代还会出现哪些门槛我们尚且无从得知,但可以确定的是,开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径

因此走向实际应用的过程中,AIGC应用亟需一套完整的开放加速计算设计指南,以此为桥梁,使得多元算力之道成为破解大模型训练算力难题的有效解法。

AIGC的发展需要大量的计算资源,因此对算力的需求将会迎来系统级变化。当下,其规模化应用的步伐已经加快,因此,如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线,都说明了其与AIGC时代这一难题的适配性。

作为开放加速计算的重要参与者,浪潮信息正铆足全力保障AIGC时代的多元算力供应,这背后有两重身份支撑,首先它是国内率先布局开放加速计算的玩家,同时它也是国内AI服务器龙头企业,在产品落地应用中积累了众多有效经验。

张政谈道,面向AIGC领域的规划,短期内,浪潮信息将继续在软硬件布局,硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台,软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度,目前,这一管理平台已经可以适配业内30多种算力芯片。

长期来看,浪潮信息将继续围绕大模型、智算中心、AI算力服务等场景的多元算力产业化应用实践进一步探索。

最新文章
cms网站开发
CMS网站开发全攻略:从概念到实战本文将全面解析CMS(内容管理系统)网站的开发过程,从概念阐述到实际操作,帮助开发者了解CMS
AI教程!入门必学的扁平矢量人物插画
原图作者:Diana Stoyanova教程作者:设计师就业衔接班08期-56-爆米花指导:如如的设计主页交作业去这里→如何用简单的线条绘制
21讲项目实战CMS-wordpress主题网站模板制作
 1、如何新建主题模板  找到文件夹wamp-www-wp-content-themes,然后在这里面新建  一个文件夹(名字自己取),把
ai超级变脸如何创作
超级变脸技术是一种利用人工智能算法实现面部替换的创意工具。以下是超级变脸创作的简要介绍:1. 选择工具:客户需要选择一个合
42个关键词,带您读懂保定市政府工作报告
[1]“十个紧紧抓住” 市委十一届四次全会要求,做好2018年各项工作,要突出“十个紧紧抓住”。 紧紧抓住中央、省一系列重大决策
AIGC 大火 深度合成技术值得关注
近来,以ChatGPT为代表的AIGC(人工智能生成内容)技术大火,成为全球关注的焦点,其中运用的深度合成技术作为人工智能应用的一
AIM 官方版 v8.0.10.2
AIM服务旨在帮助您与好友保持联系。无论您是发送即时消息,共享照片还是进行语音聊天,我们都希望使它变得更好。1、随时随地向您
AIM短信就是5G消息吗?AIM短信技术原理是什么?
AIM短信(AIM消息)是让短信成为新的流量入口和服务平台,AIM短信是企业通过短信网关是向用户发送一条文字短信,手机收到短信后
AI音乐生成器Udio怎么用?Udio怎么生成音乐详细使用教程(附使用地址)
产品简介:AI音乐生成工具Udio正式发布,用户可以通过简单的文字描述创作带有歌词的音乐作品。这一新工具极大地降低了音乐创作的
APP应用开发sdk版本过低可能性原因问题排查及解决方案
同学们,在移动 app 开发中,提示sdk版本过低缺找不到原因的情况都知道的吧哈哈哈,这个我觉得我有必要全面的分析和排查,让同