首席科学家姚顺雨腾讯首篇论文:道破为何AI死活听不懂人话
创始人
2026-02-04 22:40:39
0

快科技2月4日消息,近日,腾讯混元团队和复旦联合团队发布了首篇论文《CL-bench》。

值得一提的是,这也是姚顺雨入职腾讯首席AI科学家后,首次署名的研究论文。

他在文中提到,当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。

一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。

人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。

在这篇论文里,研究团队提到,大模型在上下文利用上,依然存在显著的能力短板。

为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench。

这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。

CL-bench包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。

CL-bench只包含一个简单但苛刻的要求:“解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。”

通过实验发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2%。

也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。

不过这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。

相关内容

把旷野装进车里,长安启源Q...
上周末,朋友发来一张照片:重庆三板溪鹿野公园的草坪上,天幕撑起一片...
2026-03-25 10:57:02
2026新疆旅行商采购大会...
3月24日上午,2026新疆旅行商采购大会暨新疆研学旅游发展大会在...
2026-03-25 10:56:55
带着孩子去露营,长安启源Q...
上周末,我和几个露营群里的朋友约着去重庆三板溪鹿野公园搭帐篷。到了...
2026-03-25 10:55:01
应急科普 | 春游赴春光,...
春风和煦 正是春游踏青、拥抱自然的好时光 放风筝、露营、登山 成为...
2026-03-25 10:53:25
(寻味中华|竞技)草原马术...
中新社呼和浩特3月25日电 题:草原马术盛宴演绎极致“人马合一” ...
2026-03-25 10:52:21
中国围棋协会公布最新一期职...
标题:中国围棋协会公布最新一期职业棋手等级分排名,柯洁九段再登榜首...
2026-03-25 10:51:36
川藏线垃圾里藏着多少求生欲...
川藏线的风,总带着两种味道:一种是雪山顶的凛冽,混着格桑花的甜香;...
2026-03-25 10:51:36
豫西大峡谷:2026钜惠福...
2026年钜惠福利上线 春天的豫西大峡谷,青山叠翠、溪水潺潺,正是...
2026-03-25 10:51:05
谷爱凌重返赛场夺冠!2-0...
北京时间3月21日凌晨。瑞士莱克斯站自由式滑雪女子U型池决赛结束。...
2026-03-25 10:51:05

热门资讯

“最慢的”孩子为何让人感动 本报记者 张 驰 “1,2,3……20!”数到20时,大家欢呼了起来。在云南省文山壮族苗族自治州砚山...
女球迷怒斥罗塞尼尔:战术混乱、... 女球迷怒斥罗塞尼尔:战术混乱、尽失人心,请原地辞职!
冲击冠军!阿森纳备战联赛杯决赛... 冲击冠军!阿森纳备战联赛杯决赛赛前训练
进攻全靠越位?英国足球哥:泰山... 进攻全靠越位?英国足球哥:泰山队你长点心吧!
对阵巴列卡诺赛前 亚马尔剪了新... 对阵巴列卡诺赛前 亚马尔剪了新发型
法国央行行长维勒鲁瓦:如果通胀... 法国央行行长维勒鲁瓦:如果通胀加剧,需求将受到影响。 来源:金融界AI电报
赛前为已逝的前助教默哀 穆里尼... 赛前为已逝的前助教默哀 穆里尼奥眼眶泛红
如何看待当前中国社会心态? 社会心态指的是一段时间内弥散在整个社会或社会群体中的宏观社会心境状态,集中体现了多数社会成员共享的社...
如何认定滥用防卫权? 我在国内各地有10000多律师好友,如果你要寻找外地律师合作,请加我微信(hzm5349),我帮你推...
原创 火... NBA常规赛,火箭124-132不敌公牛,全场比赛全队三分41投仅11中。 据统计,火箭本月大空位三...