DeepSeek冲上Hugging Face榜第三,“深度思考”功能与R1解绑,可能不会有R2了?
创始人
2025-08-20 23:02:47
0

出品|搜狐科技

作者|郑松毅

编辑|杨锦

没有V4也没有R2,DeepSeek这次选择用升级模型V3.1交卷。

数小时前,DeepSeek在用户群低调通知,“线上模型版本已升级至V3.1,上下文长度拓展至128K,欢迎前往官方网页、App、小程序测试,API接口调用方式保持不变。”

搜狐科技观察发现,DeepSeek当前已开源DeepSeek V3.1-Base版本,相关文件已上传至Hugging Face平台。尽管发布方式低调,但DeepSeek在Hugging Face趋势榜单中已上升至第3名。

本次发布有一个细节值得注意,DeepSeek 的官方网站上,原本在 “深度思考” 这个功能的开关按键上有 “R1” 的标识,现在这个标识被去掉了。

业内猜测,DeepSeek是否也要走OpenAI的路线,把V系列的快速响应模型和R系列的深度思考模型整理合并,实现GPU共用,调度起来更方便?

这样来看,大家都在等的R2是否还会发布亮相,可能要打上一个问号。

编程能力提升,推理和“幻觉”问题并未改善

从DeepSeek官方宣传点来看,V3.1更新最大的宣传点在于上下文长度升级到了128K(之前64K)。也就是一次性能承载和处理更多信息,例如篇幅较长的文档和代码。

技术方面,V3.1在架构层面继承了DeepSeek V3系列的关键技术,包括MLA、MoE等,参数量与V3版本相同。

模型一发布,全网粉丝争先上手体验。从普遍实测反馈来看,新模型V3.1在Token使用上有较大改进,使用量较0324版本下降约13%,意味着成本的进一步节约。但综合推理能力方面着实没有明显进步,“幻觉”问题依然被诟病。

有业内测评员提到,“V3.1并未看到‘幻觉’问题的改善迹象,比如在年报总结任务上,V3.1在关键信息摘录上错误频发,甚至表现不如旧版。”

另有测评者表示,“我从六个维度实测了新模型的变化,包括数学推理、逻辑分析、代码生成等。结果让人意外:V3.1的推理能力没有提升,某些场景下甚至不如之前的旧版本。”

被抱怨最多的,要属“中英文混杂”问题。“(这个问题)几乎在旧版本是不存在的,而在V3.1里,中英夹杂却随处可见。尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。”有测试者表示。

有一种解释是,“这是强化学习的副作用,因为最新的论文中有提到混杂使用各种语言反而能使模型的推理能力增强,大模型厂商在做类似的尝试。”

但新模型V3.1的更新也并非毫无亮点。比如V3.1在回答内容信息上有进一步增加,提供了更多细节,语气也更为活泼。在代码编程、可视化效果、物理遵循能力上也有所提升。

此外,在多语言支持方面,V3.1版本能处理超过100种语言,尤其对亚洲语言和资源较少的语种进行了明显的能力优化。

从关键测试结果来看,V3.1 在AIME2025数学竞赛测试中准确率提升至87.5%,较旧版R1的70%有所提升。LiveCodeBench编程测试中,V3.1的表现几乎与OpenAI o3-high相当,展示出优秀的编程能力。

DeepSeek坐不住了?

2024年1月5日,DeepSeek发布了首个大模型DeepSeek LLM。同年12月,正式上线DeepSeek-V3模型,并同步开源。到2025年1月20日,DeepSeek-R1推理大模型发布,凭借低成本比肩海外顶尖模型,引起全球轰动。

自此,DeepSeek被视为国产“AI黑马”, 圈内始终对其保持高度关注。

但半年多时间过去了,备受期待的R2模型连续“跳票”,反而在这时用“不痛不痒”的模型轻量更新交卷,难免让人猜疑起背后原因。

除了开头提到的,一种猜测是DeepSeek在做合并V系列和R系列模型的重新思考,但也有另一种声音认为,“面对竞争压力,DeepSeek有些坐不住了。”

从进入夏天开始,Google、xAI、OpenAI等AI赛道头部玩家相继发布新模型“亮剑”。相较之下,尽管大众一直期待DeepSeek能有所动作回应,但其一直在保持“沉默”状态。

对于连续“跳票”,业内普遍认为有两个主要原因:其一是面对美国新一轮芯片出口限制,算力问题给DeepSeek带来新的挑战;另一原因在于CEO梁文锋对目前新模型的能力提升还不满意,想“憋个大招”出来。

“沉默”本身并非有失,但从市场的现实选择来看,用户的流失率正在“敲警钟”。

QuestMobile 在《2025 年二季度AI应用价值榜》中提到,DeepSeek 月均下载量从第一季度的 8111.3 万猛降至 2258.9 万,下滑超过 70%。活跃用户规模方面,从2025年3月的1936.1万降至6月的1629.5万,下滑趋势明显。

虽有360集团创始人周鸿祎对此解释,“DeepSeek本身是开源模型,它的技术底座被广泛应用于第三方平台。也就是说,有大量应用场景并没有直接体现在流量数据中,其实际价值远非简单的下载数据所能体现。”但DeepSeek的热度正在退潮,的确是不争的事实。

更现实的是,在技术日新月异的AI赛道,长时间不更新版本的后果是在排名榜单中呈现可见的“落后”。

根据Artificial Analysis最新大模型排名榜单,DeepSeek已从昔日“领跑”变为“中游”水平,OpenAI、Google、阿里巴巴等竞争对手跃至前位。

对DeepSeek来说,显然不会甘愿于此。

从另一角度看,也许是市场对DeepSeek的关注热情显著超过国内其他大模型团队,甚至令其背起对抗OpenAI、Google的重任。但现实规律是,技术奇点的爆发从来不是一蹴而就。对DeepSeek也是同样,需要再多些耐心。

正如梁文锋所说,“创新本就是昂贵且低效的,最让我们兴奋的是搞清猜想而不是既定事实。在这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是真正走到技术的前沿,推动整个生态发展。”

相关内容

“珍奇辽味”—2025东北...
近日,“珍奇辽味”—2025东北亚美食文化交流周暨辽河口美食季启动...
2025-12-30 15:21:02
原创 ...
文/桔彤 在娱乐圈里,说到恩爱夫妻,网友们脑海中浮现的例子可不...
2025-12-30 15:20:42
上海留学新选择!2025性...
一、上海准留学生的择中介之惑:如何找到兼具品质与性价比的选择? ...
2025-12-30 15:20:06
嘉陵江首航鸣笛!“南充—古...
各位看官: 阆中人太幸福、太幸福了! 昨天的2025年12月29号...
2025-12-30 15:19:00
分析-火箭这一年经历重塑与...
火箭126-119击败步行者,以一波三连胜结束了2025年的全部征...
2025-12-30 15:18:54
广东广州:2026萝岗香雪...
12月30日,“八景风采·萝岗香雪”2026萝岗香雪文化季活动在广...
2025-12-30 15:18:53
买“打折”滑雪季卡却刷不出...
近日,有滑雪爱好者向潮新闻·钱江晚报“记者帮”反映,称自己通过第三...
2025-12-30 15:18:31
冰上逐梦展风采,市实验中学...
近日,市实验中学的特色滑冰课程正式拉开帷幕,晶莹的冰场瞬间成为校园...
2025-12-30 15:18:30
周二双赛焦点!吉达国民碾压...
北京时间12月30日至31日凌晨,两场焦点赛事接连上演!23:30...
2025-12-30 15:18:24

热门资讯

原创 谢... 12月30日下午,中国田径男子跨栏名将、亚运冠军谢文骏发布长文,正式宣布退役。 谢文骏1990年7...
全球首次!脑瘫象棋棋手在公开赛... T时报记者 郝俊慧 12月29日,在海南举行的“天天象棋杯”中国象棋协会年度总决赛现场,一场特殊的...
甲亢哥带着安哥拉球迷一起Siu... 甲亢哥带着安哥拉球迷一起Siuuu
河北棋手孟繁睿勇夺中国象棋协会... 12月28日,2025年“天天象棋杯”中国象棋协会年终总决赛在海南省澄迈县福山镇落下帷幕,我省棋手孟...
【“送温暖”集中行动季】“雪趣... 崇礼共青团关爱青少年“送温暖”集中行动季期间,为丰富农村留守儿童课余生活,感受家乡冰雪文化,12月2...
日共前委员长不破哲三去世,任内... 日本广播协会(NHK)消息,日本共产党前委员长(党首)不破哲三于12月30日去世,享年95岁。不破哲...
东部战区开展夺控要港等科目演练 12月30日,中国人民解放军东部战区位台岛以东海域,组织两栖攻击舰编队、驱护舰编队、无人机等兵力,开...
如何建设高质量共富实践样板?攀... 封面新闻记者 周翼 12月30日,封面新闻记者从攀枝花市委新闻发布会上获悉,12月29日召开的攀枝花...
当分层架构遇到极端高并发:飞猪... 作者 | 飞猪技术 余英 业务背景 自 7 月以来,随着飞猪深度融入阿里巴巴中国电商生态,淘宝首页...