分享好友 最新动态首页 最新动态分类 切换频道
人工智能万卡 GPU 集群的硬件和网络架构
2024-12-26 15:31

   

人工智能万卡 GPU 集群的硬件和网络架构

一、背景

自从 OpenAI 推出 ChatGPT 以来,LLM 迅速成为焦点关注的对象,并取得快速发展。众多企业纷纷投入 LLM 预训练,希望跟上这一波浪潮。然而,要训练一个 100B 规模的 LLM,通常需要庞大的计算资源,例如拥有万卡 GPU 的集群。以 Falcon 系列模型为例,其在 4096 个 A100 组成的集群上训练 180B 模型,训练 3.5T Token 耗时将近 70 天。随着数据规模不断膨胀,对算力的需求也日益增长。例如,Meta 在训练其 LLaMA3 系列模型时使用了 15T 的 Token,这一过程是在 2 个 24K H100 集群上完成的。

本文深入探讨构建大规模GPU集群的关键组件与配置。涵盖多样GPU类型与服务器配置,网络设备(网卡、交换机、光模块)调优,以及数据中心网络拓扑设计(如3-Tier、Fat-Tree)。特别聚焦NVIDIA DGX A100与DGX H100 SuperPod的精准配置与网络布局,同时概览业界万卡集群标准拓扑。助您全面理解,高效构建大规模GPU集群。

构建超万卡GPU集群是一项复杂的挑战,涉及存储网络、管理网络等多个维度。尽管本文仅触及冰山一角,但已深入探讨了广泛采用的树形拓扑结构。值得注意的是,电力与冷却系统作为集群稳定运行的关键,同样不可或缺。未来,集群的构建与维护还需在这些方面持续精进。

2.1 GPU

Ampere、Hopper及最新Blackwell系列GPU持续进化,如图表所示,显存、算力及NVLink性能均显著增强,彰显其强大的技术迭代与性能提升。

  • A100升级至H100,FP16稠密算力提升超3倍,功耗从400w增至700w,效能显著提升,为高性能计算注入新动力。
  • H200升级至B200,FP16稠密算力翻倍,功耗仅从700w增至1000w,性能提升显著,能效比优异。
  • Blackwell GPU以其FP4精度支持,算力高达FP8的两倍。NVIDIA报告中,FP4算力与Hopper架构FP8算力对比,凸显了显著的加速优势,展现了Blackwell GPU的卓越性能。
  • GB200搭载完整的Full B200芯片,而B100和B200则是其简化版本,确保性能与成本的精准平衡。

2.2 HGX

HGX,NVIDIA倾力打造的高性能服务器,集8或4个GPU于一身,搭载Intel或AMD CPU。其NVLink与NVSwitch技术实现全面互联,确保性能极致释放(8个GPU为NVLink全互联上限)。散热系统采用风冷设计,确保稳定运行。HGX,引领服务器性能新纪元。

  • HGX A100升级至HGX H100和HGX H200,FP16稠密算力激增3.3倍,同时功耗控制不到原两倍,性能卓越,效率领先。
  • HGX B100和B200在FP16稠密算力上实现近2倍提升,相较HGX H100和H200,功耗保持相当,最多节省近半,性能卓越且能效出众。
  • HGX B100与B200网络保持原配,后向IB网卡维持8x400Gb/s高速传输,无需升级,确保稳定高效。

NVIDIA DGX与HGX,专为深度学习、人工智能及大规模计算打造的高性能解决方案,各具特色,满足不同设计及应用需求。

  • DGX,专为普通消费者打造,提供即插即用高性能方案,配备完整软件支持,涵盖NVIDIA深度学习软件栈、驱动与工具,预构建且封闭,轻松满足您的多样化需求。
  • HGX,专为云服务提供商与大规模数据中心运营商打造,构建高性能定制解决方案的利器。模块化设计,支持按需定制硬件,作为硬件平台或参考架构,助力客户构建卓越性能。

2.3 网络

2.3.1 网卡

这里主要介绍 ConnectX-5/6/7/8,是 Mellanox 的高速网卡,都支持以太网和 IB(InfiniBand)。2016 年发布 ConnectX-5,2019 年 NVIDIA 收购 Mellanox,然后 2020 年发布了 ConnectX-6,2022 年发布 ConnectX-7,2024 年 GTC 大会上老黄介绍了 ConnectX-8,还没看到详细参数。几个网卡对应的简要配置如下所示,可以看出,基本上每一代的总带宽都翻倍,下一代估计能到 1.6Tbps:

2.3.2 交换机

NVIDIA提供以太网和IB交换机,支持数十至数百端口。其总吞吐量(双向交换能力)计算为最大带宽乘以端口数再乘以2,这里的2代表双向传输。这一配置确保高性能的数据传输和处理能力。

Spectrum-X系列以太网交换机,支持高带宽数据传输,满足多样化网络需求。尽管低带宽也兼容,但总端口数固定,故在此主要展示高带宽数据。

如下图为常见的 Quantum-X 系列 IB 交换机:

除了以上的 Mellanox 交换机外,现在也有很多数据中心会采用框式交换机(Modular Switch),比如 Meta 最近的 Building Meta's GenAI Infrastructure 中提到其构建了 2 个包含 24K H100 的 GPU 集群,其中使用了 Arista 7800 系列交换机,而 7800 系列就包含框式交换机,如下图所示,7816LR3 和 7816R3 甚至可以提供 576 Port 的 400G 高速带宽,其内部通过高效的总线或者交换背板互联,传输和处理的延迟非常低:

2.3.3 光模块

光模块是光纤通信的核心,可将电信号高效转化为光信号,通过光纤传输,实现超高速率、长距离通信,且抗电磁干扰能力强。它集成发射器与接收器,前者负责电转光,后者实现光转电,为现代通信提供坚实技术支撑。下图为光模块结构示意,展现其工作原理与卓越性能。

最新文章
杰奇cms网站自动生成文章自动配图发布站群系统
AI智能写作软件,批量生成自动发布到网站后台支持任意CMS批量导入关键词,自动生成、自动配图、自动发布、不限制网站、域名数量。支持生成中、英、越、日等所有语言文章。我们有专业的团队24小时维护,为您保驾护航。1.支持所有语言输出输入
谷歌SEO优化,如何助力我的Authority Site提升?
在当今互联网信息爆炸的时代,拥有一个高权威性的网站(Authority Site)是每个网站运营者的梦想。这不仅意味着更高的流量,更优质的用户,还意味着更多的商业机会。作为一名在SEO领域摸爬滚打多年的从业者,我深知谷歌SEO优化对于提升Auth
通过阅读《手机断舍离》,我们可以学会如何找回那些被手机夺走的时间和注意力。我们可以重新发现生活中的美好和纯粹的快乐。这是一次自我救赎的实践,也是对现代生活的深刻反思。
飞屏无法连接电脑版(飞屏无法连接电脑版网络)
好酷屋教程网小编为您收集和整理了飞屏无法连接电脑版(飞屏无法连接电脑版网络)的相关教程:飞屏无法连接电脑版网络先打开歪飞开关  点击右下角无线网络连接的图标或者点击左下角开始-设置-网络连接-双击无线网络连接-查看无线网络  在
短视频平台源码,短视频软件开发,短视频app源码搭建
一、短视频平台源码的功能1、短视频功能:短视频是短视频平台源码的主要功能,用户可以发布、编辑、观看短视频。2、直播功能:短视频软件开发实现直播功能,主播可以带货、连麦、进行PK。3、聊天功能:短视频app源码支持用户聊天,方便用户
金东一医生-哈尔滨市金东一医生产阴道紧致手术价格及案例口碑深解析
作为哈尔滨市产阴道紧致手术好的医生,金东一医生产阴道紧致手术精细、效果良好,引得哈尔滨市整友纷纷关注,大家想知道金东一产阴道紧致手术价位多少钱?金东一医生产阴道紧致手术贵不贵?金东一产阴道紧致手术收费价位合理,快来看看。下
自治区农业农村厅办公室关于印发2024年基层农业技术推广服务能力提升项目实施方案的通知(桂农厅办发〔2024〕10号)
各市、县(区)农业农村局,自治区蚕业技术推广站:为保证基层农业技术推广服务能力提升项目顺利实施,进一步激发各地农科院(所)改革创新活力,提升科研推广服务能力,推动现代特色农业高质量发展,现将《2024年基层农业技术推广服务能力
奔驰EQE AMG怎么样 内外兼修
主流车尺寸适中,能够很好的满足各方面需求,同时主流车的价格也比较合理,所以买它就对了!如今消费者买车首先就是要看这款车配置丰不丰富,对于自然也不例外。赶紧来看看它吧。先看下奔驰EQE AMG的外观,奔驰EQE AMG前脸整体看上去较为精
相关文章
推荐文章
发表评论
0评