新智元报道
编辑:LRST
【新智元导读】现在的AI agent往往把长交互历史直接存起来,但很难高效复用。最朴素的方法直接从「原始记忆」里检索,但常常把模型淹没在冗长、低价值的上下文里。PlugMem把经验转化为结构化、可复用的知识,并提出一个任务无关(task-agnostic)的统一记忆模块,在多种Agent基准上提升性能,同时消耗更少。
随着AI agent承担越来越复杂的任务——长对话、多步推理、交互式网页导航等——它们必须记住并复用过去的经验。
但多数现有记忆系统更像「日志文件」:不断累积原始交互轨迹,需要时再从中取出一些文本片段。时间一长,记忆会无限增长、噪声增多,并迅速挤占agent的上下文窗口。
于是出现一个悖论:AI agent拥有前所未有的「记忆量」,却依然难以有效使用。然而,对决策真正重要的内容,往往不是完整的交互记录,而是从记录中沉淀出的知识。
比如做商品推荐时,agent需要记住用户偏好,而不是反复阅读长对话;在新网站购物时,agent需要的是「如何搜索、筛选、下单」的通用策略,而不是重放自己看过的每一个页面。
AI agent记忆问题的核心挑战并非「存更多」,而是以能突出决策相关信息的方式组织记忆。
UIUC、清华大学最新提出的AI agent的记忆方法PlugMem:一个任务无关、即插即用的记忆模块,用来把智能体的原始经验转化为可复用知识。PlugMem不把记忆当作扁平文本来检索,而是借鉴认知科学,将经验结构化为以知识为中心的表示。
论文链接:https://arxiv.org/abs/2603.03296
代码链接:https://github.com/TIMAN-group/PlugMem
认知科学通常区分三类记忆:对事件的回忆、对事实的知识、以及对技能/策略的掌握。事件提供背景,但有效决策依赖从事件中抽象出的事实与技能。这一视角启发我们重新思考 AI agent 的记忆设计。
PlugMem将对话、文档、网页轨迹等异构交互记录,转化为结构化的知识单元:更紧凑、更可复用,并且与决策直接对齐。
PlugMem包含三个核心组件:
Structuring(结构化) 将原始情景经验标准化,并提取为两类知识:命题式知识(facts)与处方式知识(skills、可复用技能/策略)。这些知识单元被组织为结构化的记忆图。
Retrieval(检索) 不再检索冗长文本块,而是检索与当前任务语义对齐的知识单元。高层概念与意图(concepts / intents)作为「路由信号」,帮助快速定位最相关的内容。
Reasoning(推理/压缩) 把检索到的知识进一步压缩为简洁、可直接用于当前任务的指引,再交给AI agent使用,从而更高效地利用上下文。
PlugMem将异构智能体经验组织为知识中心的记忆图,实现结构化检索与推理。
PlugMem与传统GraphRAG系统的关键差别在于「记忆访问单元」。传统方法通常索引文本chunk或实体;PlugMem以知识单元(命题与处方)作为基本构件。这样的设计减少冗余、提升信息密度,并提高检索精度。
一个能跨任务迁移的记忆模块
很多记忆系统往往为特定基准精心定制:例如对话记忆、知识密集问答、网页智能体等。这类任务特定记忆模块在单一场景里可能表现很好,但换任务往往要重新设计。
PlugMem选择了另一种方法:作为一个即插即用的通用记忆骨架,可以直接接到不同AI agent上,无需针对任务做专门修改。文中用同一个模块、保持实现不变,在三个异构基准上评测:长程对话式问答、基于维基百科的多跳知识检索、交互式网页决策任务。
结果显示:PlugMem在三种设置下都稳定提升了任务表现,超过了通用检索方法与多种任务特定记忆设计。更重要的是,这些提升是在向AI agent上下文注入显著更少记忆智元(token)的前提下实现的。
用「效用」衡量记忆
而不是用「大小」
只看任务准确率并不能反映记忆系统的关键能力:记忆模块必须在「决策效用」和「上下文成本」之间权衡。
因此PlugMem工作中提出一个信息论指标,用来度量记忆系统每消耗一个智元(token),能带来多少「决策相关的信息增益」。直观地说:记忆模块产生的记忆智元(token)能让AI agent对正确行动更有把握多少?接着再按记忆长度做归一化。
在效用–成本空间里,PlugMem稳定处于更有优势的位置:更低智元(token)成本下获得更高的决策效用。
在多种基准上,PlugMem在更小的记忆预算下提供更高的决策相关效用。
这些结果支持一个结论:把经验转化为知识,比直接检索原始日志更紧凑、更有信息量。
超过任务特定设计
乍看之下,一个任务无关的记忆模块能超过为某个基准量身定制的方法似乎有些反直觉。PlugMem的结果表明,决定性因素往往不是特定benchmark的启发式技巧,而是对「决策相关知识抽取」的有效检索。
没有检索,记忆只是静态存储;没有结构化知识,检索就缺乏精度。PlugMem将以下三件事拆开并协同:结构化决定「可被检索的内容是什么」,检索决定「记忆是否真的能帮助决策」,推理/压缩确保「以更低成本被AI智能体利用」。
PlugMem也不试图取代任务特定技巧。它更像一个通用记忆底座,上层依然可以叠加任务适配。实验也显示:在PlugMem之上再加入任务特定启发式探索方法,往往还能进一步提升效果,二者具有互补性。
走向智能体的「可复用知识基础设施」
当AI agent迈向更长程的自主能力,记忆需要从被动存储走向成为主动的知识基础设施:agents应当积累可迁移的事实与策略,让知识跨任务、跨环境复用,缓解AI agents冷启动问题,并支持更强的泛化。
PlugMem是朝这个方向迈出的一步。它以认知科学为设计启发,将「知识」作为复用的基本单位,展示了任务无关记忆在效率与能力上同时可行。
更广义地看,这项工作提示了一个视角转变:与其追求检索更多上下文,不如追求把经验表示成天然可复用的形式。随着智能体能力扩展,可扩展、可迁移的记忆系统将成为基础设施;知识中心的记忆很可能是下一代智能体的重要基石。
参考资料:
https://arxiv.org/abs/2603.03296
秒追ASI