小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
创始人
2025-06-20 11:06:42
0

新榜讯 6月19日,小红书技术团队发布消息,其深度思考模型借助Test - Time Scaling(测试时扩展)显著提升了模型推理能力,不过也产生了大量冗余和无效思考情况。小红书Hi Lab团队为此提出Think When You Need的强化学习训练方式,在不影响最终效果的情况下,实现了动态CoT能力,让平均思考长度大幅降低。实验表明,这一理念在推理及非推理等各类任务中具有广泛适用性。此外,团队还有一项重要发现,在相同任务下,参数量大、更为“聪明”的模型所需的思考长度更短,该现象与当前深度思考模型的表现相悖,却高度契合人类认知。

相关内容

战火记忆丨我以药箱卫山河
李承发,1923年3月生,安徽天长人。1942年加入新四军。抗日战...
2026-02-20 04:03:43
原创 ...
公元8世纪之后,整个欧洲仿佛笼罩在一片阴影之下——那是维京人的时代...
2026-02-20 04:03:38
原创 ...
自古征战沙场、建立功勋的英雄多为武将,能文能武、面容白净的将军往往...
2026-02-20 04:03:34
半场战报:奥洛莫茨0-1洛...
北京时间2月20日欧洲协会联赛 淘汰赛附加赛首回合,奥洛莫茨对阵洛...
2026-02-20 03:41:50
卢旺达国家银行实施近三年来...
卢旺达国家 银行货币政策委员会实施将近三年来最大幅度的加息——从6...
2026-02-20 03:35:22
原创 ...
1951年5月20日,朝鲜战争第五次战役正酣。此时,中朝联军还未停...
2026-02-20 03:34:33
原创 ...
1996年,约翰内斯堡国际机场,离境大厅被挤爆了。没有战火,没有瘟...
2026-02-20 03:34:15
原创 ...
1949年,平津战役的硝烟还未完全散尽,四野的脚步便已踏上了南下的...
2026-02-20 03:33:41
原创 ...
80年代中期,邓小平心中萌生了一个大胆的构想——将重庆从四川划出,...
2026-02-20 03:32:40

热门资讯

沈联涛:中央银行何时会停止囤金 我们所见证的,是向黄金/美元混合本位的回归。国际社会必须在两种信念之间做出选择:是相信央行通过影响利...
创盛亚洲投资集团董事长温文浩回... 创盛亚洲投资集团董事长温文浩 2026年新春开始,创盛亚洲投资集团董事长温文浩回顾了2025 年香...
西媒:西班牙正协商与中国队热身... 北京时间2月20日消息,据西班牙媒体阿斯报报道称,西班牙国家队正在协商于6月4日,在里亚索球场与中国...
春节后首周市场会怎么走? 文|产联社CLS 随着马年的到来,A股市场正式步入新的征程。投资者们对“马年”寄予厚望,期待市场能...
实探春节北京“金市”:小克重饰... 春节期间,外盘金银价格大幅波动,国际金价围绕5000美元/盎司反复拉锯。美伊关系剑拔弩张,市场对中东...
原创 揭... 当我们在银行办理业务时,很少有人会思考这样一个问题:这些动辄管理数万亿资产的金融机构,究竟是谁在背后...
港股AI应用、存储芯片股,集体... 来源:e公司 2月20日,港股迎来马年首个开市日。截至记者发稿,港股恒生指数、恒生科技指数、恒生中国...
约基奇22+17穆雷连砍7分+... 【搜狐体育战报】北京时间2月20日NBA常规赛,主场作战的快船以115-114击败掘金。科林斯11分...
定存到期,银行理财是个好选择吗... 记者 陈植 2026年2月,张女士有一笔20万元3年期存款到期。 “近年来,3年期存款利率不断走低,...