在全球首次AI大模型投资实战赛中,中国选手大放异彩。
11月4日,由美国nof1.ai机构发起的“AlphaArena”大赛正式落幕。阿里旗下的千问Qwen夺得冠军,DeepSeek v3.1紧随其后。两者不仅是唯一盈利的模型,还把四款美国大模型远远甩在身后。
据小事哥了解,这场由美国AI研究机构nof1.ai发起的大赛,汇聚了全球六款顶尖AI模型:阿里Qwen3-Max、DeepSeek v3.1、OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4.5,还有马斯克家的Grok 4。
比赛从10月18日开始,持续近三周。主办方为六款全球领先的大模型各配备1万美元初始资金,要求它们在真实金融市场中独立完成投资决策。比赛全程无人工干预,完全自主交易,模型必须根据实时数据进行买卖,最终以盈亏结果定胜负。
项目地址:nof1.ai 有兴趣的可以研究。
阿里千问Qwen最终收益超过20%,位居第一。第二名DeepSeek v3.1则稳扎稳打,一路保持盈利。反观四款美国大模型,包括GPT-5、Gemini2.5 Pro、Claude Sonnet 4.5和Grok 4,全部亏损。最出名的GPT-5甚至亏掉了超过60%的本金,排名垫底。
比赛过程中,各模型的交易风格也显现出明显差异。DeepSeek采取的是低频、高杠杆的策略,主攻比特币、以太坊等主流币种,风险分散,收益稳定。阿里千问则更激进,曾一度使用30倍杠杆集中做多比特币,虽然波动大,但最终冲刺成功,反超夺冠。
相较之下,美国的GPT-5和Gemini表现得像“情绪化散户”。两者都频繁交易,方向反复横跳。Gemini曾在一小时内从做空狗狗币转为做多,操作杂乱无章,最终小赚变大亏。GPT-5也在多个币种上追涨杀跌,毫无节奏可言。
此次赛事的最大看点,是所有模型都在真实市场中“裸奔”。没有预设环境,没有人为辅助,只有市场数据和资金波动。这种实战测试,对模型的策略调整能力和风险判断能力提出了极大挑战。
来自OpenRouter平台7月的数据显示,中国模型这两年发展迅猛。Qwen3-Coder调用量高居全球第一,通义千问包揽调用量前三。专家认为,这次大赛再次证明了中国AI在实际应用中的能力,尤其是在复杂环境下的表现。
主办方创始人Jay Azhang赛后直言,阿里千问的策略执行和市场判断令人惊喜。他也强调,这种比赛将成为未来评估AI模型实用性的标杆。