分享好友 最新动态首页 最新动态分类 切换频道
2024年科技行业前瞻专题:AI ASIC,算力芯片的下一篇章
2024-12-27 02:19

大型CSP加速资本支出

2024年科技行业前瞻专题:AI ASIC,算力芯片的下一篇章

大型CSP在资本支出方面投入巨大,支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升,2024年前三季度整体 规模达到1708亿美元,同比增长56%,且yoy逐季加快(Q1-Q3 yoy分别为34.7%、64.6%、68%)。其中,微软530亿美元,yoy +78.5%;亚马逊551.7亿美元,yoy +44.6%;谷歌382.6亿美元,yoy +79%;Meta 243.9亿美元,yoy +20.7%。 资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。

ASIC可适应不同的业务场景和商业模式的需求

大型CSP的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、 社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC 可以适应不同的业务场景和商业模式的需求。 ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。

训练和推理集群对加速计算芯片的需求

目前在训练阶段,训练集群对加速计 算芯片的需求已提升到万卡级别。随 着AI模型对训练需求的提升,未来10 万卡级别指日可待。 而在推理阶段,由于计算量与业务和 应用密切相关,单个推理集群对加速 计算芯片的需求低于训练集群,但推 理集群的部署数量要远多于训练集群 ,推理集群的数量预计会达到百万级 别。  AI算力集群特别是推理集群对加速计 算芯片的庞大需求,是ASIC快速成 长的核心驱动力。

ASIC市场规模预测

据Marvell预测,2023年 ASIC 占数据中心加速计算芯片的16%,规模约为66亿美元;随着 AI 计算需求的增长, ASIC 占比有望提升至25%,预计2028年数据中心 ASIC 市场规模将提升至429亿美元,CAGR为45.4%。

ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比

ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据 处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规 模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。 ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在 执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。  ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能 力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。 ASIC在绝对算力和片间互联方面普遍低于AI GPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成 本等优势。

ASIC的单位算力成本更低,满足一定的降本需求

ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要 的硬件设计,其单位算力成本相比GPU或更低。谷歌TPU v5、亚马逊Trainium 2的单位算力成本分别为英伟达H100的70%、60%。

ASIC与GPU软件生态对比

ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为 ASIC 研发了配套的全栈软件生态,开发了一系列编译器、底层中间 件等,提升 ASIC 在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来 ASIC 的软件生态将会愈发成熟和开放。 ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与 GPU 相比,ASIC 的编程难度较 大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用ASIC 时需要花费更多时间和精力进行开发调试。 GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编程语言和软件库支持,如英伟达的 CUDA 和 AMD 的 ROCm 等 。开发者可使用熟悉的编程语言如 C、C++、Python 等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使 得 GPU 在各种应用场景中都能快速地进行开发和部署。 GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如 ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大 量的优化工作才能发挥出GPU 的最佳性能。

ASIC以推理场景为主,并开始切入到部分训练环节

ASIC在执行特定 AI 算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于 ASIC 不需要集成通 用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但 ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下 来,难以对芯片的功能和性能进行修改和升级,如果 AI 算法发生较大变化,ASIC 可能无法快速适应这种变化。此外,ASIC的生态 系统还不够完善,开发者在使用ASIC 时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。

ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较 低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗 实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。

GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU 拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速 AI 模型的训练过程。且在训练过程 中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。

谷歌TPU:谷歌专为AI定制设计的ASIC

TPU(Tensor Processing Units,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU 适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。 截至2024年,谷歌TPU已迭代6代产品。TPU v5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPU v5p可实 现5万卡线性加速。最新一代TPUv6 Trillium预计2024H2推出,TPU v6 FP16/BF16精度非稀疏算力可达926 TFLOPS,约为 H100、B100的93%、53%。相比TPU v5e,TPU v6能效高出67%,峰值性能高出3.7倍。

谷歌TPU算力集群能力

TPU v4和TPU v5p算力集群采用3D torus(3D环面)架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中 ,每64颗TPU v4芯片组成4x4x4的立方体,每个CPU配备4颗TPU v4,64颗TPU v4和16颗CPU放入一个机架,形成一个模块。 一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必 须连接到同一个OCS。每个模块连接48个OCS(6×16÷2),最终实现所需的4096个TPU v4芯片互联。 TPU v4算力集群的物理架构:一个PCB包含4个TPU v4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成 4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。

谷歌TPU基准测试性能对比

TPU v4与英伟达A100在MLPerf基准测试中的性能对比:TPU v4在BERT上比A100快1.15倍,比IPU快约4.3倍;在ResNet上,TPU v4分别比A100和IPU快1.67倍和约4.5倍;运行MLPerf基准测试时,A100的平均功耗比TPU v4高1.3~1.9倍。虽然TPU v4单芯片算 力为A100的88%,但在性能和功耗表现上要优于A100。

谷歌TPU迭代推动大模型训练效率显著提升

TPU的算力成本随着产品更新迭代也在持续优化。TPU v5e的相对性价比(TFLOPs/$)是TPU v4的2.3倍,参考谷歌披露的TPU v4公开标价3.22美元/芯片/小时,TPU v5e的标价为1.2美元/芯片/小时,TPU v5e以更低的成本实现了更高的算力。TPU v5p训练 LLM的速度比TPU v4快2.8倍,利用第二代SparseCores,TPU v5p训练嵌入密集模型的速度比TPU v4快1.9倍。

亚马逊自研AI芯片Inferentia

AWS Inferentia加速器由AWS设计,在Amazon EC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWS Inferentia 1加速器为Amazon Elastic Compute Cloud(Amazon EC2)Inf1实例提供支持,与同类Amazon EC2实例相比,该实 例的吞吐量可提高多达2.3倍,每次推理的成本可降低多达70%。

2023年亚马逊发布了Inferentia 2芯片和Inf2实例,与Inferentia相比,AWS Inferentia 2加速器的吞吐量提高了4倍,延迟低至上一 代的1/10。Inferentia 1加速器搭载4个第一代NeuronCore,配有8 GB的DDR4内存,每个EC2 Inf1实例最多有16个Inferentia 1加 速器。Inferentia 2加速器搭载了2个第二代NeuronCore,支持190 TFLOPS的FP16性能,配置32GB的HBM,与Inferentia 1相比, 总内存增加了4倍,内存带宽增加了10倍;每个EC2 Inf2实例最多有12个Inferentia 2加速器。

微软自研芯片Maia 100

Maia 100基于自定义的RoCE类协议和以太网互连,内置AES-GCM加密引擎以保护用户数据,网络连接带宽达到600GB/s。Maia 100还由统一的后端网络支持,用于扩展和横向扩展工作负载,提供了支持直接和交换机连接的灵活性。

微软Maia 100芯片的Ares机架配备32颗Maia 100。Ares一个机架中搭载了8台服务器,每台服务器中含有4个Maia 100,因此一个 机架中总共有32颗Maia 100芯片。Ares机架功率可达40kW,配置了Sidekick液体冷却系统,在机架两侧设置副设备,冷液从副设 备流向Maia 100表面的冷板,副设备吸取液体中热量后再将冷液输出,以此构建散热循环。

Meta自研芯片MTIA

MTIA v2于2024年4月发布,用于AI推理,旨在增强Meta的排名和广告推荐引擎。MTIA v2采用台积电5nm制程,与上一代相比算 力和内存带宽翻倍提升,INT8下的稠密算力354 TFLOPS接近上一代的3.5倍,稀疏算力708 TFLOPS达到上一代的近7倍。MTIA v2 配备128GB的LPDDR5内存,内存带宽205GB/s,设计最大功耗90W TDP 。目前Meta已有16个数据中心使用了新款芯片。

芯片架构方面,MTIA v2内部包含加速器、片上和片外存储以及互联结构。AI加速器由8x8的处理单元网格(PE,processing element)组成,PE基于RISC-V内核,PE彼此互联,可作为一个整体运行任务,也可以独立处理任务。片上内存SRAM容量256MB ,SRAM带宽为2.7TB/s,每个PE内存容量为384KB,PE带宽为1 TB/s。每个加速器使用PCIe Gen5 x8主机接口。


最新文章
内衣达人直播权限开通详情步骤,内衣类目怎么可以开直播?电商平台小店开通教程 内衣类目 - 副本
2022年05月17日何***100企业一站式服务,电商平台店铺开通|定向邀约报白|天猫入驻|京东入驻|抖音入驻/快手入驻/小红书入驻/拼多多入驻各电商平台店铺开通 医疗器械 药品 保健品滋补品 食品饮料 酒水 服饰鞋包 珠宝文玩 数码家电 本地生活服
第9章 大模型的伦理安全与隐私9.3 隐私保护技术9.3.1 数据匿名化与脱敏
作者:禅与计算机程序设计艺术 9.3.1 数据匿名化与脱敏 9.3.1.1 背景介绍 在大数据时代,越来越多的个人信息被收集、处理和分析,导致个人隐私风险的显著增加。因此,保护个人隐私成为一个重要的课题,而数
神马优化seo_神马优化关键词快速排名(优化神马搜索引擎关键词排名工具)
1 移动端优化紧张性随着移动互联网的快速发展,手机搜刮用户数量巨大,企业需器重手机网站,否则大概错失大量客户百度神马和搜狗是重要搜刮引擎,各具官方优化指南2 优化指南要点百度移动优化指南夸大简便域名服务器稳固HTML5顺应性呆板可
无忧建站,打造轻松高效的网站建设体验,无忧自助建站
在当今这个信息爆炸、互联网高速发展的时代,网站已成为企业、个人乃至组织展示形象、传播信息、开展业务的重要平台,对于许多非技术背景的人来说,搭建一个专业、美观、功能齐全的网站并非易事,从域名注册、服务器选择到页面设计、功能开
珠宝直播间调查③丨售卖假珠宝的淘宝网店没有工商信息,记者15分钟注册假珠宝店无需证照
红星新闻此前报道,不少中老年人热衷在各个平台的直播间购买低价珠宝玉石。受访者余大妈就曾在2年里花费超3万元购入低价珠宝,其中不乏十几元的玉髓,几十元的和田玉、玛瑙、翡翠等。 为查验这些带着鉴定证书发货的珠宝是否为真,记者将余
科普重大通报“开端棋牌可以开挂吗”详细有挂内幕
【央视新闻客户端】登录新浪财经APP 搜索【信披】查看更多考评等级  债市研判六人谈  来源:债券杂志  特邀专家:  李东荣 中国人民银行原副行长、中国互联网金融协会创始会长  黄艺明 广发银行信用卡中心资产管理部副总经理  
比本科还牛的专科学校(比较牛的专科学校) 全国最好的大专排名一览表
今天大学科目网小编整理了比本科还牛的专科学校(比较牛的专科学校) 全国最好的大专排名一览表相关信息,希望在这方面能够更好帮助到大家。1、比本科还牛的专科学校(比较牛的专科学校)2、广州番禺职业技术学院王牌专业排名一览表3、全国
搜索广告召回技术在美团的实践
从美团流量场景角度来看,美团搜索广告分为两大类,一是列表推荐广告;二是搜索广告。推荐广告以展现商家模式为主,通常叫商家流。搜索广告的展现形式比较丰富,有商家模式,即以商家展现为主,
百度、吉利就“极越汽车”发表联合声明
集度汽车有限公司是百度控股与吉利控股投资设立的造车新势力初创公司,是探索汽车智能化转型的创新产物。由于行业竞争格局发生巨大变化,既定商业计划无法执行,经营遇到了挑战。极越汽车产品由吉利工厂制造,授权集度独家经营。百度、吉利
阿里云搜索是什么,与百度搜索有什么不同
阿里云搜索是阿里开发的提供给网购人群的一个专属的搜索引擎。
相关文章
推荐文章
发表评论
0评