Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
创始人
2025-06-17 11:21:19
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

深夜,沉寂已久的Kimi突然发布了新模型——

开源代码模型 Kimi-Dev,在SWE-bench Verified上以60.4%的成绩 取得开源SOTA

参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。

有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。

Kimi-Dev采用MIT协议,目前权重和代码均已发布,还有网友制作的量化版本也已在抱抱脸上线。

那么,Kimi-Dev是如何做到的呢?

模型扮演两种角色,在测试中自我博弈

目前,Kimi-Dev的完整技术报告暂未出炉,不过官方透露了其中的一些关键技术。

Kimi-Dev-72B的设计核心是 BugFixer和TestWriter两种角色的结合,BugFixer和TestWriter都遵循一个共同的最小框架,包含两个阶段:

  • 文件定位(File Localization):首先找到需要修改的正确文件;

  • 代码编辑(Code Edits):修正现有代码中的问题或潜在缺陷(BugFixer),以及编写并添加新的单元测试代码(estWriter)。

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,Kimi团队以Qwen 2.5-72B基础模型为起点使用约1500亿高质量真实数据进行 中期训练

具体来说,Kimi团队 收集了数百万个GitHub issue和PR提交,目的是让Kimi-Dev-72B能够学习人类开发人员如何推理并解决GitHub问题。

另外,Kimi团队还进行了严格的数据净化,确保训练数据当中不包含SWE-bench Verified里的内容。

经过中期训练和监督微调 (SFT)后,Kimi-Dev-72B在文件定位方面已经表现出色,之后的强化学习阶段主要侧重于提升其代码编辑能力。

强化学习训练采用了Kimi k1.5中的策略优化方法,主要有三个关键设计:

一是 仅基于结果的奖励(Outcome-based Reward Only)——训练中仅使用代码在Docker环境中的最终执行结果(成功为 1,失败为 0)作为奖励,而不考虑任何与代码格式或编写过程的因素。

这确保了模型生成的解决方案的正确性以及与实际开发标准的一致性。

二是采用了 高效提示集(Efficient Prompt Set),过滤掉在多样本评估下成功率为零的提示,以更有效地进行大批量训练。

此外,强化学习阶段还采取了循序渐进的策略,逐步引入新提示,逐步增加任务难度。

三是 正向示例强化(Positive Example Reinforcement),也就是在后面的训练过程中,Kimi-Dev会将它之前已经解决的问题的方案重新纳入当前的训练批次中进行学习,从而巩固和强化之前有效的、成功的解决模式和方法。

经过强化学习后,Kimi-Dev-72B能够同时掌握两种角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。

Kimi-Dev-72B会遵循标准Agentless设置,为每个问题生成最多40个补丁候选(patch candidates)和40个测试候选(test candidates)。

在测试时间自我博弈中,观察到了规模效应(scaling effect)。

以上就是Kimi团队介绍的Kimi-Dev背后的关键,更多细节将在后续的技术报告中揭晓,感兴趣的话可以关注Kimi团队的发布。

下一步,Kimi团队还计划探索更复杂的软件工程任务,并将于与流行的IDE、版本控制系统和CI/CD流水线进行更深入的集成。

项目主页:

https://moonshotai.github.io/Kimi-Dev/

GitHub:

https://github.com/MoonshotAI/Kimi-Dev

HuggingFace:

https://huggingface.co/moonshotai/Kimi-Dev-72B

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

相关内容

原创 ...
在科技尚未迈入高度发达阶段的古代,人们勇敢地踏上海洋,开辟新的航线...
2025-09-18 13:04:03
档案保存环境与设备管理:守...
档案,作为历史的见证者和信息的载体,其保存质量直接关系到信息的完整...
2025-09-18 13:03:28
原创 ...
一张老照片,一个人旧人物,一段老故事。 大家好,我是历史君,一个搜...
2025-09-18 13:03:17
苏德战争初期苏军为何遭受惨...
对苏德战争初期苏军一再受挫的原因,以往国内外史学界过于强调德军如何...
2025-09-18 13:03:16
原创 ...
很多人不理解,义和团成员看似“愚昧、落后”,为何能迫使西方列强放弃...
2025-09-18 13:03:14
原创 ...
1927年:毛泽东的革命启示 1927年,毛泽东已经34岁。这一年...
2025-09-18 13:03:08
原创 ...
大家好,我是新疆红泉堂。今天我想和大家聊一聊新疆地区的红钱,特别是...
2025-09-18 13:02:57
原创 ...
在建国前,国共激烈对抗的岁月里,国民党顽固派因视野狭窄、未能准确识...
2025-09-18 13:02:42
泰国每年接待大量中国游客,...
当下,旅游已成为大众生活中愈发热门的休闲方式,喜欢踏上旅途、领略别...
2025-09-18 13:02:41

热门资讯

同样是Z世代,他们如何在车间开... 封面新闻记者 赵奕(四川省人力资源和社会保障厅供图) 距离第三届全国技能大赛河南郑州开赛仅剩1天,四...
看“上合”关键词如何解答世界之... 从黄浦江畔到海河之滨,上合组织已经成为世界上人口最多、地域最广、潜力巨大的综合性区域合作组织。201...
原创 西... 西贝最近生意惨淡,真是罗永浩的一张嘴话说垮的吗?其实不是。老罗充其量只是点燃了一根早就埋好的导火索。...
面对AI项目高达70%的失败率... 01 今天,AI被广泛宣传能够重塑我们商业和生活模式的变革性潜力,从自动化日常任务到提供各种回答见解...
平均年龄约39.8岁 748万... 截至2024年10月,全国已核发网约车驾驶员证748.3万本。他们是谁?他们的就业和收入情况如何? ...
348元起滑3小时?深圳全球最... 208元起的2小时娱雪票、348元起的3小时滑雪票,2万余元的年卡……9月29日,号称是“全球最大室...
原创 2... 在燃油车时代,旅行车市场从来都是叫好不叫座。这里面原因有很多, 归根结底还是和我们的文化习惯有关——...
殷若宁、吉诺-提提库领衔,20... 10月9日至12日,2025别克LPGA锦标赛将于上海旗忠花园高尔夫俱乐部重磅开启!由卫冕冠军殷若宁...
实拍国安球迷扔水瓶精确命中河内... 实拍国安球迷扔水瓶精确命中河内球员 后者怒踢广告牌