大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
创始人
2025-01-31 03:56:48
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

首个FP4精度的大模型训练框架来了,来自微软研究院!

在相同超参数的设置下,可以达到 与FP8以及BF16相当的训练效果

这意味着 所需的存储和计算资源可以更少

用这种方法训练的模型规模最高可达130亿参数规模,训练Tokens数量也达到千亿级别。

而且用的还不是真·FP4,而是通过FP8来模拟,如果采用真的FP4,效果还能进一步提升。

(注:研究开展时,尚未有原生支持FP4的硬件,故作者通过在FP8的TensorCore上模拟实现)

网友评论说,效率更高质量却没什么损失,FP4真的是个game changer。

还有人说,如果这一发现广为人知,恐怕老黄的股价又要跌了。

当然,因低训练成本而成为当红明星的DeepSeek也被网友cue了一下:

在FP8 TensorCore上模拟FP4

如开头所述,在相同超参数的设置下,作者的方法可以达到与BF16的训练效果。

具体来说,在1.3B、7B和13B的LLaMA模型上,从0到1千万Tokens的训练过程中,作者的FP4训练与BF16的损失曲线基本一致。

在下游任务上,表现同样也和BF16相当。

为了实现FP4精度训练,研究团队采用了 定制化的FP4矩阵乘法(GeMM)CUDA内核

在内核中,作者先用FP16将FP4的A和B矩阵读入共享内存并做相应变换,然后用FP4完成分块矩阵乘法,最后再用FP16对中间结果进行归约,得到FP16格式的输出矩阵。

首先需要确定量化的数据格式,该框架采用了 E2M1的FP4格式,即用2位来表示指数,1位表示尾数,外加1位符号位,总共4位。

选择这个格式是为了契合当前主流ML加速芯片的量化计算单元设计。

并且,这个框架 对权重矩阵W和激活矩阵A采取了不同粒度的量化策略

对W做的是列方向 (channel-wise)的量化,而对A做的是行方向 (token-wise)的量化。

这种量化粒度是与GeMM在硬件上的并行实现方式相契合的,可以在不引入额外矩阵转置操作的前提下,最大化发挥FP4在矩阵乘法上的加速效果。

在模型前向传播开始时,框架 对每一个线性层的权重矩阵W和输入激活矩阵A同时进行FP4量化

量化时,先对矩阵中的数值进行缩放和偏移,将其映射到FP4所能表示的范围内,然后通过查表的方式将其四舍五入到最近的FP4离散值。

由于不同层的数值范围差异很大,所以需要对每一层的权重矩阵和激活矩阵分别确定一个独立的量化范围,即进行 逐层的量化参数校准

这个框架采用的是 scale+shift的校准方法,即先用一个缩放因子将数值从原始范围映射到[-1,1],再用一个偏移因子把[-1,1]平移到FP4所能表示的范围。

在反向传播过程中,如果直接对量化后的矩阵求导,则权重矩阵的梯度几乎处处为0,从而无法进行参数更新。

为此,作者提出了一种新颖的 可微分梯度估计方法

它在前向计算时仍然使用硬量化,以保证计算效率,但在反向传播时,用一个连续可微的函数来重新拟合这个量化函数,并求导得到一个对梯度的修正项。

另外在训练过程中,模型的隐层激活分布通常呈现出明显的长尾特征,少数维度上的数值明显偏大,导致出现“离群点” (outlier)

针对这个问题,作者提出了一种“ 离群点削峰和补偿”的策略。

具体来说,先在激活矩阵A中,通过分位数检索的方法找出那些幅值最大的离群点,将它们限幅到某一个预设的阈值范围内,得到削峰后的矩阵A_clamped。

然后,再基于原矩阵A和削峰后的A_clamped,构造出一个稀疏补偿矩阵∆A,其中只有那些被削峰的位置是非零的。

此外在部分环节当中,作者还采用了 混合精度设计。

比如在梯度通信时采用了FP8,在优化器状态 (如动量)的存储时选择了FP16。在系统的其他部分,如非矩阵乘操作的计算、Loss Scaling等,也都采用了FP16。

通过这些混合精度的设计,在保证训练数值稳定性的前提下,尽可能地降低了计算和存储开销。

中科大博士生一作

这个框架由微软亚洲研究院和SIGMA团队打造,所有研究人员都是华人。

第一作者 Ruizhe Wang是中科大在读博士生,目前在MSRA实习,研究方向就包括低精度量化。

中科大科研部部长、类脑智能国家工程实验室执行主任、博士生导师 查正军教授也参与了这一项目。

通讯作者为MSRA高级首席研究经理 (Senior Principal Research Manager)程鹏和首席研究经理 (Principal Research Manager)Yeyun Gong

程鹏曾先后就读于北航和清华,在清华读博期间还到UCLA访问学习;Yeyun Gong则是复旦博士,毕业后即加入微软。

MSRA杰出科学家、常务副院长 郭百宁也参与了本项目,他先后就读于北大和康奈尔大学,1999年就已加入微软。

此外还有其他作者,完整名单如下:

论文地址:

https://arxiv.org/abs/2501.17116

参考链接:

量子位智库年终发布 三大年度报告

带你一起回顾2024年 人工智能智能驾驶Robotaxi新趋势, 预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

相关内容

【人民网、央广网、中新网】...
人民网 人民网哈尔滨4月20日电 自免签政策实施以来,绥芬河锚定...
2026-04-28 12:18:31
“五一”旅行产品搜索量上涨...
随着“五一”假期临近,多地出游预订热度持续攀升。北方的新疆与南方的...
2026-04-28 12:17:42
肖克故居,嘉禾小街田村红色...
前段时间,受当地政府邀请,我和我的团队去郴州嘉禾县进行休闲农业培训...
2026-04-28 12:16:57
沈阳周边游去哪?本溪桓仁龙...
周末旅游好去处 沈阳周边适合周末旅游的地方不少,其中本溪桓仁龙祥岛...
2026-04-28 12:16:57
一家人去新疆玩7日怎么玩,...
一家人去新疆玩7日怎么玩,新疆轻松游七天六晚多少费用 带着一家人去...
2026-04-28 12:16:51
巨有科技创5A景区管理:铸...
在文旅产业高质量发展的浪潮中,国家5A级旅游景区已成为高品质旅游目...
2026-04-28 12:16:10
广州一地掀起“挖晶热”,现...
近日,有多名网友在社交平台发帖称,广州市黄埔区暹岗大山掀起“挖晶热...
2026-04-28 12:15:53
从“自我如珠”到“岛上有韵...
前言:珠源湖州,再绽新韵 4月22日,熹圆韵记×云湖岛珍珠文化体验...
2026-04-28 12:15:20
逃离人山人海,解锁旅游生活...
每隔一年到了假期之时,“旅游”跟“人山人海”好像就成了天然的近义词...
2026-04-28 12:15:02

热门资讯

张小泉控制权或再添变数,MCN... 图片来源:视觉中国 蓝鲸新闻4月21日讯(记者 徐晓春)张小泉控制权或再添变数,MCN机构白兔集团刚...
一季度冠军基金重仓曝光:黄金、... 每经记者:任飞 每经编辑:赵云 截至4月22日,2026年第一季度主动权益基金(统计普通股票型、偏股...
沪指重返4100点 2920只... 扬子晚报网4月22日讯(记者 范晓林)截至收盘,沪指重返4100点,创业板指、深成指均涨超1%。创业...
超837亿元!2025年中国演... 央视网消息:4月21日,中国演出行业协会发布多项2025年全国演出市场相关数据。2025年,全国演出...
原创 库... 苹果重大人事调整!苹果正式官宣库克将于2026年9月1日正式卸任CEO职务,转任董事会执行董事长,接...
回购潮下价值凸显,美的集团、泡... 文丨谢长艳 编辑丨张桔 年内上市公司回购潮再涌,尤其A股和港股的龙头公司成为标兵,美的集团、腾讯控股...
珀莱雅上市后年度营收净利首次双... 国产美妆巨头业绩迎来阶段性承压,上市后业绩首次下滑。 4月21日晚间,珀莱雅(603605.SH)发...
中国走得太及时!8500亿美债... 编辑丨子渝 文丨子渝 本文陈述所有内容皆有可靠信息来源,赘述在文章结尾 4月,美国财政部陷入...
大势已逆转!国产新能源或早已证... 打开2026年最新车市终端数据,一场堪称惨烈的行业洗牌,正在清晰上演。 曾经手握二三十万预算、中产群...
阿里等巨头,洽谈投资DeepS... 来源:财熵 阿里等巨头,洽谈投资DeepSeek 据媒体援引四位知情人士透露,中国科技巨头腾讯控股...