Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
创始人
2025-06-17 11:21:19
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

深夜,沉寂已久的Kimi突然发布了新模型——

开源代码模型 Kimi-Dev,在SWE-bench Verified上以60.4%的成绩 取得开源SOTA

参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。

有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。

Kimi-Dev采用MIT协议,目前权重和代码均已发布,还有网友制作的量化版本也已在抱抱脸上线。

那么,Kimi-Dev是如何做到的呢?

模型扮演两种角色,在测试中自我博弈

目前,Kimi-Dev的完整技术报告暂未出炉,不过官方透露了其中的一些关键技术。

Kimi-Dev-72B的设计核心是 BugFixer和TestWriter两种角色的结合,BugFixer和TestWriter都遵循一个共同的最小框架,包含两个阶段:

  • 文件定位(File Localization):首先找到需要修改的正确文件;

  • 代码编辑(Code Edits):修正现有代码中的问题或潜在缺陷(BugFixer),以及编写并添加新的单元测试代码(estWriter)。

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,Kimi团队以Qwen 2.5-72B基础模型为起点使用约1500亿高质量真实数据进行 中期训练

具体来说,Kimi团队 收集了数百万个GitHub issue和PR提交,目的是让Kimi-Dev-72B能够学习人类开发人员如何推理并解决GitHub问题。

另外,Kimi团队还进行了严格的数据净化,确保训练数据当中不包含SWE-bench Verified里的内容。

经过中期训练和监督微调 (SFT)后,Kimi-Dev-72B在文件定位方面已经表现出色,之后的强化学习阶段主要侧重于提升其代码编辑能力。

强化学习训练采用了Kimi k1.5中的策略优化方法,主要有三个关键设计:

一是 仅基于结果的奖励(Outcome-based Reward Only)——训练中仅使用代码在Docker环境中的最终执行结果(成功为 1,失败为 0)作为奖励,而不考虑任何与代码格式或编写过程的因素。

这确保了模型生成的解决方案的正确性以及与实际开发标准的一致性。

二是采用了 高效提示集(Efficient Prompt Set),过滤掉在多样本评估下成功率为零的提示,以更有效地进行大批量训练。

此外,强化学习阶段还采取了循序渐进的策略,逐步引入新提示,逐步增加任务难度。

三是 正向示例强化(Positive Example Reinforcement),也就是在后面的训练过程中,Kimi-Dev会将它之前已经解决的问题的方案重新纳入当前的训练批次中进行学习,从而巩固和强化之前有效的、成功的解决模式和方法。

经过强化学习后,Kimi-Dev-72B能够同时掌握两种角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。

Kimi-Dev-72B会遵循标准Agentless设置,为每个问题生成最多40个补丁候选(patch candidates)和40个测试候选(test candidates)。

在测试时间自我博弈中,观察到了规模效应(scaling effect)。

以上就是Kimi团队介绍的Kimi-Dev背后的关键,更多细节将在后续的技术报告中揭晓,感兴趣的话可以关注Kimi团队的发布。

下一步,Kimi团队还计划探索更复杂的软件工程任务,并将于与流行的IDE、版本控制系统和CI/CD流水线进行更深入的集成。

项目主页:

https://moonshotai.github.io/Kimi-Dev/

GitHub:

https://github.com/MoonshotAI/Kimi-Dev

HuggingFace:

https://huggingface.co/moonshotai/Kimi-Dev-72B

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

相关内容

伊朗武装部队发言人:唯有伊...
伊朗武装部队发言人27日表示,只有伊朗才有权为结束战争设定条件,美...
2026-03-28 10:40:12
福建学校安全管理新规9月施...
  福建学校安全管理新规9月施行,涵盖心理健康、人车分流、周边整治...
2026-03-28 10:40:07
原创 ...
李建成的陵墓揭示了他与李世民之间复杂而微妙的兄弟关系 皇宫内的争权...
2026-03-28 10:12:03
原创 ...
受许多文艺作品和影视剧的影响,许多人对中国古代的总管一职,第一印象...
2026-03-28 10:11:29
若马超不死,诸葛亮的北伐能...
事实上,马超的能力一直被严重低估。如果他没有英年早逝,诸葛亮的北伐...
2026-03-28 10:10:59
原创 ...
鲁母侯疵 众所周知,西汉王朝是由汉高祖刘邦创立的。据史料记载,...
2026-03-28 10:10:21
视频丨“村游”玩法新升级 ...
眼下,江西上饶市婺源县的13万亩油菜花迎来最佳观赏期。作为传统的油...
2026-03-28 10:09:15
原创 ...
天命玄鸟,姜儿生商。这只神鸟的后代几经沉浮,几度臣服,从历史的长河...
2026-03-28 10:08:47
北京历史上的百龄植树碑
来源:滚动播报 (来源:千龙网) 阳春三月,植树节之际,寻访北京地...
2026-03-28 10:08:02

热门资讯

原本只是想喝杯咖啡……加州男子... 南加州Heartwell高尔夫球场发生罕见意外,一男子在场内咖啡区遭高速飞来的高尔夫球击碎玻璃后受伤...
张雪峰:中国的“梅西”都考大学... 张雪峰:中国的“梅西”都考大学去了 你踢不出来岂不完蛋
于根伟直播与球迷争论:请把他下... 于根伟直播与球迷争论:请把他下线 我对得起天津足球
张雪峰:每年有时间有能力都会去... 张雪峰:每年有时间有能力都会去圣西罗看球
张雪峰:小时候的梦想是当一名足... 张雪峰:小时候的梦想是当一名足球运动员 带国足进世界杯
张雪峰见到偶像卡卡很激动:欧冠... 张雪峰见到偶像卡卡很激动:欧冠半决赛对曼联的进球印象最深
国足健身房+场地训练 王上源、... 国足健身房+场地训练 王上源、刘浩帆接受媒体采访
萨拉赫社媒发视频告别:因为你们... 萨拉赫社媒发视频告别:因为你们所有人 我将永不独行
全国象棋锦标赛(团体)张家口开... 新华网石家庄3月28日电 2026年全国象棋锦标赛(团体)28日在河北张家口开幕,当日同期举办了中国...