首席科学家姚顺雨腾讯首篇论文:道破为何AI死活听不懂人话
创始人
2026-02-04 22:40:39
0

快科技2月4日消息,近日,腾讯混元团队和复旦联合团队发布了首篇论文《CL-bench》。

值得一提的是,这也是姚顺雨入职腾讯首席AI科学家后,首次署名的研究论文。

他在文中提到,当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。

一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。

人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。

在这篇论文里,研究团队提到,大模型在上下文利用上,依然存在显著的能力短板。

为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench。

这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。

CL-bench包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。

CL-bench只包含一个简单但苛刻的要求:“解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。”

通过实验发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2%。

也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。

不过这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。

相关内容

刘震云谈雷军过早 大家笑笑...
快科技6月21日消息, 此前雷军回武汉吃早餐的相关画面流出后,网上...
2026-06-21 22:52:21
原创 ...
近日,特朗普公开放话称,年内将再度到访中国,出席11月深圳APEC...
2026-06-21 22:52:20
半场战报:斯洛伐克1-1马...
北京时间6月2日国际友谊赛,斯洛伐克对阵马耳他。斯洛伐克哈拉斯林破...
2026-06-21 22:03:35
赛动黔景·活力省运|驭风驰...
6月19日,贵州省第十二届运动会马术比赛在黔南州三都水族自治县顺利...
2026-06-21 21:39:00
惠若琪、巩立姣、武大靖同框...
日前,“青春年少好读书”全国青联委员领读行动江苏专场读书会在南京师...
2026-06-21 21:38:12
逐风赴雪域,张家界跑友36...
三湘都市报全媒体记者 田甜 张家界慈利的马拉松爱好者陈星,于6月1...
2026-06-21 21:38:04
半场战报:瑞士3-0约旦
北京时间5月31日国际友谊赛,瑞士对阵约旦。瑞士恩博洛破门,恩多耶...
2026-06-21 21:26:30
原创 ...
中国作为世界四大文明古国之一,历史悠久,文化厚重,那些沉淀在岁月深...
2026-06-21 21:18:08
有矿小涨、没订单暴涨,市场...
6月以来,A股铜箔概念掀起一轮超级行情。 铜箔是印制电路板(PCB...
2026-06-21 21:17:19

热门资讯

原创 站... 在我们眼前,是一个全新的成都马拉松,跟过去比,你可能几乎认不出来了。 一般说来,国内优质赛事各方面均...
荣宝斋2026春季大拍收官 李... 北京荣宝斋2026年春季大拍刚圆满收官,整体表现相当不错,尤其是书画板块热度很高,交出了一份挺亮眼的...
钢琴十级、马术、普拉提教练,还... 有网友注意到,翁虹晒出了女儿的高中毕业礼vlog,画面里的小姑娘身着学士服,外搭定制非遗云肩,一家三...
世界杯-队史首胜!萨拉赫传射齐... 北京时间6月22日9点,2026年世界杯G组次轮,新西兰对阵埃及。在小组赛首轮,两队都收获了一场平局...
高尔夫风口全面来袭!这五类人群... 在整体消费收紧、实体经济竞争加剧的当下,多数传统休闲行业增长乏力,唯独室内模拟高尔夫赛道逆势爆发。户...
央视揭秘茶叶直播乱象:假古树茶... 据央视新闻深入调查,部分网络茶叶直播间已沦为营销欺诈的温床。一些商家将普通茶叶包装成名山名寨的“古树...
质量好的茶叶罐推荐榜 在高端茶产业中,茶叶罐不仅是储存容器,更是锁住茶香、彰显品牌价值的核心载体。然而,行业数据显示,超4...
楼下喝茶唠家常!潞城区南华社区... 一张茶桌,几把椅子,一杯热茶,近日,在长治市潞城区潞华街道南华社区电力小区内,潞华街道南华社区党委书...
半场战报:伊朗1-0马里 北京时间6月5日国际友谊赛,伊朗对阵马里。半场战罢,场上比分伊朗 1-0 马里。精彩瞬间第12分钟,...