全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉
创始人
2024-12-20 16:20:56
0

新智元报道

编辑:编辑部 HYZ

【新智元导读】2024年快要结束了,世界大模型究竟孰强孰弱?刚刚,智源研究院发布了下半年大模型综合评测结果,涵盖了开源闭源100+模型,横跨文本、语音、图像和视频等多个领域。

2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

相较于今年5月的模型能力全方位评估,本次智源评测:

  • 扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;

  • 首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;

  • 首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

多种模态评测综合榜单:覆盖文本、语音、图片、视频理解与生成

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。

评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。

评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax海螺AI、Pika 1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。

专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

四大专项评测榜单:多维度探索模型能力边界与应用潜能

本次评测,智源研究院再次联合与海淀区教师进修学校新编了K12全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。

得益于多模态能力的带动发展,模型本次K12学科测验综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在「文强理弱」的偏科情况。

FlagEval大模型角斗场,是智源研究院今年9月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。

目前,FlagEval覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。

此次评测,共有29个语言模型、16个图文问答多模态模型、7个文生图模型、14个文生视频模型参评。

评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务FlagEval大模型角斗场的延展,今年10月智源研究院推出了模型辩论平台FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。

本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在「幻觉问题」,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。

评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。

金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

智源评测体系FlagEval再迭代:覆盖全球800+开闭源模型

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。

2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

参考资料:

https://mp.weixin.qq.com/s/jIwMZuIu_QNjjTJhe2GOkA

相关内容

战火记忆丨我以药箱卫山河
李承发,1923年3月生,安徽天长人。1942年加入新四军。抗日战...
2026-02-20 04:03:43
原创 ...
公元8世纪之后,整个欧洲仿佛笼罩在一片阴影之下——那是维京人的时代...
2026-02-20 04:03:38
原创 ...
自古征战沙场、建立功勋的英雄多为武将,能文能武、面容白净的将军往往...
2026-02-20 04:03:34
半场战报:奥洛莫茨0-1洛...
北京时间2月20日欧洲协会联赛 淘汰赛附加赛首回合,奥洛莫茨对阵洛...
2026-02-20 03:41:50
卢旺达国家银行实施近三年来...
卢旺达国家 银行货币政策委员会实施将近三年来最大幅度的加息——从6...
2026-02-20 03:35:22
原创 ...
1951年5月20日,朝鲜战争第五次战役正酣。此时,中朝联军还未停...
2026-02-20 03:34:33
原创 ...
1996年,约翰内斯堡国际机场,离境大厅被挤爆了。没有战火,没有瘟...
2026-02-20 03:34:15
原创 ...
1949年,平津战役的硝烟还未完全散尽,四野的脚步便已踏上了南下的...
2026-02-20 03:33:41
原创 ...
80年代中期,邓小平心中萌生了一个大胆的构想——将重庆从四川划出,...
2026-02-20 03:32:40

热门资讯

香江观澜:春启丙午,香港金融“... 来源:中国新闻网 中新社香港2月20日电 题:春启丙午,香港金融“骏马”如何蹄疾步稳? 中新社记者 ...
原创 高... 大年初四,年味还很浓,大家可能想不到,以前那个很帅的演员高云翔,会在天津的服装市场里为了几十块钱和卖...
假期前四天 全国重点零售和餐饮... 商务大数据显示,假期前四天,全国重点零售和餐饮企业日均销售额较2025年假期前四天增长8.6%。假期...
水果店必看!低成本获客不烧钱,... 很多水果店老板是不是都有同一个烦恼:守着好水果,却没人来买?线下客流越来越少,线上想做小红书引流,又...
“武汉味道”投票热消费火 原标题:“武汉味道”投票热消费火 游客跟着榜单选购武汉新特产 2月19日正月初三,江汉路步行街游人...
原创 大... 春节假期,国内所有的黄金交易市场都关门休息了。 从2月14日到2月23日,整整十天,上海黄金交易所的...
智谱飙升37%,再创历史新高,... 格隆汇2月20日|智谱(2513.HK)涨幅进一步扩大至37%,报696港元,股价再创历史新高,市值...
亚马逊如今成为美国最大企业,回... 来源:环球市场播报 沃尔玛自 2009 年以来一直稳居美国营收最高企业榜首 作者:萨拉・纳绍尔、肖恩...
被曝与爱泼斯坦联系,凯悦酒店董... 没有借口 凯悦酒店集团(Hyatt Hotels)董事长、亿万富翁Thomas Pritzker日前...
2026最新排行:虹口区5家团... 团队凝聚力不是喊出来的:虹口区团队拓展策划公司深度评测 众多HR以及管理者的关键困惑在于,为何花钱搞...