分享好友 最新动态首页 最新动态分类 切换频道
LLama factory 单机多卡-简易版-教程
2024-12-27 01:16

老规矩先贴官网代码

https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/README_zh.md

LLama factory 单机多卡-简易版-教程

但是我还是没有根据这个命令跑出来,所以还是上其他方法把,有简单的就用

背景知识补充

LLama factory 多卡 ZeRO-3 、ZeRO-2、 ZeRO-0什么意思?以及为什么没有ZeRO1

【深度学习】多卡训练__单机多GPU方法详解(torch.nn.DataParallel、torch.distributed


Step1:先把webUI服务起起来

 

Step2:在webUI上配置好你的模型、数据集、输出文件夹、(可选wandb见之前的帖子

offload操作同理

此时预览训练命令行不在这里运行,网页端无法实现单机多卡

 

Step3:打开bash,启动虚拟环境,粘贴以下命令

 

就像这样

 
 

用deepspeed的情况下报错处理

  1. 可能会提示没有deepspeed这个库,pip install 一下即可

  2. –deepspeed cache/ds_z3_config.json 这句话很可能会引起报错

  • 不是所有的模型都支持deepspeed3
    报错
 

这个错误表明你当前的配置存在冲突:
你正在使用 DeepSpeed ZeRO stage 3 优化
同时代码尝试使用 no_sync context manager 进行梯度累积
这两个功能是不兼容的,因为:
ZeRO stage 3 会对梯度进行分区处理
而 no_sync 管理器试图阻止梯度同步,这与 ZeRO stage 3 的工作方式冲突
解决方案:
1.修改 DeepSpeed 配置,使用较低的 ZeRO stage (比如 stage 2 或 1)
2.或者调整训练参数,避免使用梯度累积(gradient accumulation):

  • examples/deepspeed/ds_z3_config.json这个文件的配置坑很多,有时候需要把auto替换成整数值
 

错误日志

 

要随便改成整数

 

补充offload是干嘛的

DeepSpeed Offload 是一种技术,用于在训练大规模深度学习模型时,将部分计算任务或数据从 GPU 卸载到 CPU 或 NVMe 存储设备,从而缓解显存压力,优化资源利用。它主要包含两种类型Optimizer OffloadParameters Offload

以下是详细说明


1. 为什么需要 Offload

训练大型模型(如 GPT-3 或其他数十亿参数的模型)时,显存可能成为瓶颈。即使使用分布式策略,显存需求仍可能超出硬件的限制。

Offload 技术通过将部分模型的状态或计算从显存转移到更大的主机内存(CPU RAM)或高速存储设备(NVMe,有效降低 GPU 显存占用,同时兼顾性能。


2. DeepSpeed Offload 的两种类型

(1) Optimizer Offload
  • 功能:将优化器的状态(如动量、二阶动量等)和梯度计算任务从 GPU 卸载到 CPU。
  • 优点
    • 显著减少 GPU 显存占用。
    • 适用于需要训练超大模型但 GPU 显存不足的情况。
  • 缺点
    • 由于 CPU 的内存带宽和计算能力低于 GPU,性能可能受到影响,尤其是在高算力需求的任务中。
  • 适用场景:显存有限但有足够的 CPU 计算能力和内存。
(2) Parameters Offload
  • 功能:将模型的参数从 GPU 显存卸载到 CPU 或 NVMe。
  • 优点
    • 大幅减少显存占用,使得更大的模型可以被加载和训练。
    • 在 NVMe 的支持下,理论上可以训练任意大小的模型。
  • 缺点
    • 依赖 CPU 内存或 NVMe 的访问速度,可能会增加训练的延迟。
    • 需要高性能 NVMe 和 I/O 设计,才能确保不会显著降低训练效率。
  • 适用场景:极大模型(如 100B+ 参数模型)训练,GPU 显存远远不足。

3. DeepSpeed Offload 的实际工作原理

数据转移
  • 优化器状态或参数被拆分后,根据配置,在 GPU 和 CPU 或 NVMe 之间进行动态转移。
  • I/O 操作和计算任务通过异步方式进行,以减少训练过程中的等待时间。
性能优化
  • DeepSpeed 使用高效的通信技术和内存管理策略(如 pipelining 和分块处理)来最小化数据传输的开销。

4. 配置示例

以下是典型的 DeepSpeed Offload 配置文件

Optimizer Offload 示例
 
Parameters Offload 示例
 

5. 优缺点总结

功能优点缺点Optimizer Offload减少显存占用,适合较大的模型训练增加 CPU 计算负载,I/O 速度可能成为瓶颈Parameters Offload能训练超大模型,突破显存限制NVMe 的访问速度较 GPU 慢,可能增加训练延迟

6. 典型应用场景

  • 研究机构或公司:需要训练超大规模模型,但硬件预算有限。
  • 超大模型训练:例如 GPT-3、BLOOM 等需要数十或上百亿参数的模型。
  • 多用户环境:在资源共享场景下优化显存使用效率。

最新文章
《李宏毅2022机器学习》HW1 记录
通过观察数据知道影响是否为阳性的有38+15个特征,前38位为id及one-hot表示地点的feature。代码为:结果如下: 注意还需要在config中将select_all改为False 再次提交后:得出结果分数更好了一点: Pytorch中做L
省点外链和商加加外链?
商加加外链工具是省点外链更名后的新名字。这一工具风靡企业市场,通过它,企业可以轻松实现将外链转化为企业微信的跳转链接,以便更好地服务客户和提升营销效果。省点外链改名成商加加外链工具并没有改变其核心功能。企业只需要在商加加外
百度快照被劫持百度网址安全中心提醒您:该页面可能已被非法篡改!
近期受世界杯的影响,我们Sinesafe接过很多中小企业网站频繁的被黑客入侵篡改了快照内容的网站安全问题导致打开网站被提示博彩页面,在搜索引擎中会被提示百度网址安全中心提醒您:该页面可能已被非法篡改!主要客户网站问题基本都是反复性质
行程缩短至3小时 这条“油画”公路带你解锁冬日阿勒泰之美→
全长200多公里的阿禾公路是网友心中美如画的网红公路眼下,阿禾公路迎来了首次冬季运营冬日的风景有多独特?到这里自驾游有哪些需要注意的地方?冬日的阿勒泰有多美?视频加载中...6小时缩短至3小时连接新疆阿勒泰市与喀纳斯景区禾木村的阿
百度搜索高级技巧
百度搜索——整理自网络 1、+加号——强制包含关键词 将“+”后面的关键词强制包含到搜索结果中 2、-减号——排除关键词或者网站 在某个字词或网站网址前添加短横 (-) 可排除所有包含该字词的搜索结果。在搜索“汽车品牌美洲虎”和
《白夜2》大结局关宏峰下线,编剧被骂上热搜,别拍第三部了
《白夜破晓》作为口碑剧《白夜追凶》的续作一直备受期待,观众翘首以盼,终于在时隔七年之后迎来续作的播出。可惜,《白夜2》播出后收获的成绩并不好,不管是热度还是口碑,都远远不如《白夜追凶》。如今,《》迎来大结局,更是因灵魂男主
钓草鱼的方法
钓草鱼的方法  导语:三龄到四龄以后的草鱼,是垂钓爱好者们的心头好。下面就由小编为大家带来钓草鱼的方法,大家一起去看看吧!  一、知己知彼,了解草鱼  要想垂钓草鱼,那么自然要对草鱼的习性有所了解,这样才能运用合适的方法一
预防校园欺凌系列漫画
青青校园·预防校园欺凌系列漫画之家长如何辨别子女有否被欺凌青青校园·预防校园欺凌系列漫画之建立和谐校园的不同措施扫黑除恶举报电话南安市扫黑办:0595-8639 0252南安市公安局扫黑办:0595-8639 9000栏目:教育栏目来源:漫画作者:乔
听说大象们又开始往北迁徙了,最新大象北迁消息来啦!
最新的大象走向生成技术运用先进的机器学习算法,能够有效分析和预测大象群体的行为模式。通过对大量生态数据的处理,这项技术不仅帮助研究人员深入了解大象的迁徙路线和栖息地选择,还能实时监测它们的健康状态和生存环境变化。这种创新应
香蕉先生视频2025最新版 v2.6.2.4
香蕉先生视频是一款老司机必备视频软件,非常经典火爆,汇聚了全网最新片源,你想看的这里的都有。软件定期更新维护,不用担心迷路,超多精彩内容等你来观看。多个播放源,不用担心播放失败等问题,给你最好的观看体验。想看视频的朋友们,
相关文章
推荐文章
发表评论
0评