战报:Grok4笑傲AI象棋大赛,DeepSeek败给o4-mini,Kimi K2被喊冤
创始人
2025-08-06 17:59:25
0

最新战报最新战报:首届AI国际象棋对战……马斯克家的Grok 4“遥遥领先”了。

是的,谷歌给大模型整了个国际象棋比赛:Kaggle AI象棋竞赛。

在首日对决之后,参赛选手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一轮较量,结果——

Grok 4表现最佳,DeepSeek R1表现强劲,但不敌o4-mini,Kimi K2最惨——都让网友喊冤了。

眼见自家Grok 4表现出色,马斯克当然不会错过PR良机,不过回应略显凡尔赛:

我们没有刻意去训练,这只是一个副作用。

u1s1谁又能为这么个“无厘头”比赛专门刻意训练呢?

当然,让AI对战国际象棋,过程比输赢重要多了,毕竟谷歌发起这次比赛的初衷,就是测试“涌现”能力。

首届Kaggle AI国际象棋竞赛

本次比赛由谷歌发布,作为推广Kaggle游戏竞技场的一个环节。首次比赛以国际象棋开始。

参赛“选手”包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。

8月5日至8月7日每天10:30(太平洋时间)准时直播赛况。

除了各个顶级模型的象棋对决,直播还邀请了国际象棋特技大师中村光(Hikaru Nakamura)作为讲解。

他于7岁那年开始学习国际象棋,到15岁时成为全美国际象棋冠军并拿到GM头衔,也是本届EWC国际象棋(迄今为止规模最大的国际象棋锦标赛)的季军。

在一天的角逐后,目前挺入半决赛圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。

吃瓜群众坐等看ChatGPT的o4-mini和o3的“内斗”,以及Gemini 2.5 Pro对战Grok 4。

并且,所有在八分之一决赛中的比赛都以完美的4-0结束。实力差距非常明显。

网友们分析了这次赛况,表示Grok 4在这次基准测试中“在战术策略和速度上超越了所有其他模型”。

可是等等,现在不是才八进四么?这么快就下结论了?

让我们一起看看各模型的具体表现,是什么让网友作出了如此高的评价:

Grok 4 vs Gemini 2.5 Flash

Grok4如同猛兽, 它轻松的表现就像“真正的GM”一样下棋,成为当天最佳。

另一方面,Gemini Flash从一开始就处于劣势,包括开局时吃王。

OpenAI o4-mini vs DeepSeek R1

在OpenAI o4-mini对阵DeepSeek R1的赛程中,R1开局强劲,但最终输给了o4-mini。

比赛中双方都犯了不少错误,但o4-mini率先抓住了R1犯下的失误。

R1提供的推理虽然自信却错误,而且对棋盘局势的缺乏洞察导致它留下了棋子给o4-mini率先拿走。

Gemini 2.5 Pro vs Claude Opus 4

这场Gemini 2.5 Pro和Claude Opus 4的对阵是当天最佳对局,两个模型都展示了高水平的棋艺。

Claude出现一些失误,而Gemini Pro展现了强大的战术视野,但给出的分析有时过于冗长。

Kimi K2 对阵o3

这是最快的四分之一决赛,Kimi K2被“碾压”,主要是因为它反复坚持走非法棋步,o3以弃权获胜,没有太多值得分析的表现。

不过也有人替Kimi鸣不平:因为Kimi不是推理模型,长思考才能有更好的性能,步骤越往后,越需要长思考。

为什么是国际象棋?

所以为什么要选国际象棋来让AI对战?

这么说吧,国际象棋规则明确但复杂度高(10^120种可能局面),是测试AI决策能力的理想场景。

虽然有网友会产生误读,认为它是“越大越优”,但实际上,这个数字已经远超穷举法的适用范畴。

前些时间,陶哲轩在Lex访谈中提到:有些数学问题无法直接通过暴力计算来解决。例如国际象棋排列的数量,我们至今无法用计算机完全解决,但我们现在有AI,它们不会探索博弈树中的每个位置,而是寻求近似值。

换句话讲,让AI去下国际象棋,考验的其实是AI的涌现能力

有位网友也关注到了这点,并对这次Grok 4的表现做出了总结:

这位网友表示,在传统AI中,模型实力源于领域特定训练模(为任务量身定制);而在前沿AI中,模型实力源于一致性泛化(进化出能够映射到一切事物的内部世界结构)。国际象棋只是其中一种投射。

网友们普遍认为,国际象棋是一种很可靠的评估AI能力的方式。

也有网友对AI的下一个竞技游戏进行了预测:或许会是UNO?(当然是开玩笑)

哪个AI最被看好?

在Kaggle AI象棋竞赛正式开始之前,有网友在Manifold上发起了一个投票:谁会是这场AI象棋竞赛的最终胜者?

起初,Gemini 2.5 Pro是最受欢迎的,o4紧随其后。

但在八进四比赛后,该投票发生了明显变化,Grok 4呈现压倒性优势。

不过越是这样就越让人期待,会不会出现什么抓马的意外呢?

参考链接:

[2]https://www.youtube.com/watch?v=-nByurcQHDI

— 完 —

相关内容

原创 ...
之前,虫子天下曾和大家一起讨论过关于林黛玉为何短命的原因,之前说是...
2026-05-16 18:10:42
赵匡胤为何放过柴荣幼子?看...
我老家在江浙,离南京两小时高铁。读书的时候去南京找同学玩,去了不下...
2026-05-16 18:08:46
家族投资者转向经销商、渔业...
来源:环球市场播报 核心要点 华尔街避险 AI 投资风潮渐盛,...
2026-05-16 18:06:30
海南自贸港封关运作成绩单:...
海口5月15日电 (记者 王子谦)海南自贸港全岛封关运作已接近5个...
2026-05-16 18:04:38
机器人ETF大涨5%
【导读】大涨近5%!机器人板块迈入“1到10”阶段,5万亿元级赛道...
2026-05-16 18:02:26
选武汉电工PLC培训机构,...
判断一家武汉电工plc培训机构靠不靠谱,其实很简单,最需要看重的两...
2026-05-16 17:59:04
2026年5月,乐清市黄金...
2026年乐清市正规靠谱、无套路的黄金、珠宝、手机、奢侈品、名包名...
2026-05-16 17:57:44
特斯拉、英伟达、英特尔,股...
【导读】美股三大指数集体跌超1%,芯片股普跌,美债收益率飙升,原油...
2026-05-16 17:57:20
巴菲特多年对航空业“嗤之以...
伯克希尔"新王"以26亿美元重仓达美航空,这是这家投资巨头第三次涉...
2026-05-16 17:54:52

热门资讯

原创 清... 人间巧艺,如同天工开物,炼药点灯,昼夜相伴,精益求精。 世间每个人每天都在学习各式技能,但若想将...
原创 如... 夷陵之战发生在章武元年(227年)7月,距刘备称帝仅三个月。这是一场蜀汉对东吴的大规模军事行动,也是...
原创 岳... 岳飞,这位传奇的将领,注定在历史的长河中熠熠生辉。他凭借卓越的抗战才华,一次又一次地挡住了金人的锋芒...
为什么说曹操与儿子曹丕争夺美女... 在三国诸多民间传闻中,“曹操攻破邺城、觊觎甄宓美色,却被儿子曹丕抢先一步迎娶,最终只能无奈作罢” 的...
原创 秦... 富豪榜并不是现代社会才有的现象,其实在中国最早的经济史著作中,就已经出现了类似的榜单。而这个榜单中,...
原创 原... 在中国历史上,帝王和官员的辉煌事迹不计其数,但能够身兼数职的角色却是极为罕见的。西汉,作为中国历史上...
近千年历史证明,当大陆实力处于... 3月31日,日本宣布在熊本和静冈两个县的远程导弹已经部署完毕,这个消息引发了人们的关注和议论,其中最...
原创 同... 春秋时期,中国社会经历了剧变,春秋霸主之间的争霸之争成为这一时期历史的主题。关于春秋五霸的划分,学界...
我国学者为破解“达尔文的困惑”... 近日,国际顶级期刊《科学》在线发表了云南大学古生物研究院丛培允团队的最新研究成果。该团队系统报道了埃...
原创 朱... 当年,朱元璋着手修建南京城墙,但眼前的国库捉襟见肘,无力承担如此浩大的工程开支。此时,沈万三慷慨解囊...