刚刚!阿里推出首个开源多模态深度研究Agent,四大VQA基准测试赶超GPT-4o
创始人
2025-08-17 14:31:49
0

智东西

作者 | 李水青

编辑 | 云鹏

智东西8月15日消息,今日晚间,阿里宣布推出首个开源多模态深度研究智能体(Deep Research Agent)——WebWatcher。

市面上的深度研究工具层出不穷,但大多只能围绕文字进行搜索。WebWatcher的核心创新点在于配备了增强的视觉语言推理能力,能够图文结合思考并调用多种工具,从而使研究结果更深入。

比如,当用户要分析一张图片里的信息,WebWatcher能调用 “图片搜索” 找相关图和说明,用 “OCR” 提取图片里的文字,用 “文字搜索” 查背景知识,用 “网页访问” 看具体网页内容,用 “代码工具” 算数据等。

▲WebWatcher运行案例

实验结果表明,WebWatcher在四个具有挑战性的VQA(视觉问答)基准测试中全面领先于主流的开闭源多模态大模型:

其在Humanity’s Last Exam(HLE)-VL(复杂推理)、BrowseComp-VL(信息检索)、LiveVQA(知识整合)和MMSearch(聚合类信息寻优)等任务测试中均获得高分,超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。

▲WebWatcher测评成绩

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。整个方法包含三大环节:

1、多模态高难度数据生成:构建具备复杂推理链和信息模糊化的训练数据;

2、高质量推理轨迹构建与后训练:生成贴近真实多工具交互的推理轨迹,并通过监督微调(SFT)完成初步能力对齐。然后利用GRPO在复杂任务环境中进一步提升模型的决策能力与泛化性;

3、高难度基准评测:构建并使用BrowseComp-VL对模型的多模态深度推理能力进行验证。

为了更好地评估WebWatcher的能力,阿里提出了BrowseComp-VL,它是BrowseComp在视觉-语言任务上的扩展版本,设计目标是逼近人类专家的跨模态研究任务难度。

GitHub地址:

https://github.com/Alibaba-NLP/WebAgent

论文地址 :

https://arxiv.org/abs/2508.05748

▲论文页面截图

结语:突破视觉语言,向深度搜索Agent迈进

自2025年1月推出WebWalker多Agent框架之后,阿里在过去近八个月里加速迭代,陆续推出了原生Agent搜索模型WebDancer、可执行极复杂信息搜索的Agent搜索模型WebSailor、面向信息检索Agent的数据合成方法WebShaper,向通用搜索Agent不断迈进。

本次,阿里最新推出的多模态深度研究智能体WebWatcher,进一步突破视觉语言深度研究Agent的新前沿,其构建的BrowseComp-VL基准、自动化轨迹生成与训练流程,为解决复杂多模态信息检索任务奠定基础,也为未来多模态深度研究Agent发展提供方向。

相关内容

2026年全国国际象棋公开...
4月3日,2026年全国国际象棋公开赛(吉安站)结束了第三轮和第四...
2026-04-04 06:08:24
英格兰0-1输日本!三大1...
最近这两年,只要一提起贝林厄姆在国家队的表现,那大伙儿的口水简直能...
2026-04-04 06:07:10
四川:200余名青少年参加...
4月3日,四川眉山,成都浩克国王冰球队(黑衣)对阵清华附中天府学校...
2026-04-04 06:06:57
不用出门!在家跑步练1个月...
在家进行跑步训练,无需专业场地和复杂器械,只要掌握正确方法,就能达...
2026-04-04 06:06:36
意大利再次无缘世界杯!意大...
今天早晨,无数意大利球迷从睡梦中醒来,揉了揉惺忪的睡眼,看着手机推...
2026-04-04 05:27:23
《逐玉》结局四大遗憾戳泪点...
看完《逐玉》大结局才发现,一直以为是大奸臣的魏严竟是在为先帝背锅,...
2026-04-04 05:01:01
原创 ...
在我国古代,许多贪官污吏臭名昭著,而其中最为人熟知的便是和珅。再加...
2026-04-04 05:00:11
原创 ...
提到为政清廉的官员,许多人或许会立刻想到北宋的包拯,近代的林则徐、...
2026-04-04 04:59:09

热门资讯

「一城一酒」净利暴涨近六成,U... 本报(chinatimes.net.cn)记者周梦婷 北京报道 在整个啤酒市场略显冷清的大环境下,燕...
天眼查荣膺 2026 年度中国... 3 月 29 日,2026 中关村论坛年会全球独角兽企业大会在北京盛大召开,大会权威发布 2026 ...
「数据看盘」机构活跃度连续两日... 一、沪深股通前十大成交 今日港股休市,期间北向资金暂停交易。 二、板块个股主力大单资金 从板块表现来...
原创 未... 未来五年,中国资产的贬值速度或许远超多数人的预期,而很多人可能将目光聚焦于现金,认为其贬值最为迅速。...
美联储,降息大消息! 【导读】非农数据,交易员基本抹去了今年美联储剩余的降息预期 中国基金报记者 泰勒 大家好,简单关注一...
原创 双... 摘要:营收、利润同比均下滑(欢迎关注杠杆游戏) 撰文|杆姐&编辑|爱丽丝 作为“四五”规划的收官之...
原创 多... 开车跑高速要花钱,是多少车主习以为常的事,可最近全国多地突然刮起高速取消收费的大风,不少运营到期的老...
龙栖华府700套安居房启动配售... 近日,深圳市住房和建设局发布通告,启动龙栖华府安居型商品房项目配售。该项目为龙岗区地铁16号线吉溪站...
打造智慧养老新生态,西城区首届... 4月2日,西城区首届“智享银龄・幸福到家”养老服务大集在紫园・新风里中心广场举办,此次大集以数字化为...
贵金属价格回落是否提供了买入机... 文丨埃里克・诺兰德 Erik Norland 编辑丨吴海珊 中东局势加剧了通胀上行的预期、扰乱能源供...