大模型如何才能像真正的数据科学家一样工作?
创始人
2026-02-04 23:40:38
0

当我们谈论人工智能的时候,大多数人会想到的是一个助手坐在你身边,等待你的指令。你问它一个问题,它就给你一个答案。但是,如果有一个AI不仅能回答问题,而且能像一个真正的数据科学家那样主动探索数据、发现问题、提出假设,然后验证这些假设——这样的AI会是什么样的呢?这正是来自英国国王学院腾讯和艾伦图灵研究所的一个研究团队正在努力解决的问题。他们的研究发表于2026年2月,论文编号为arXiv:2602.02039v1。

一、为什么我们需要一个真正会主动思考的数据科学家

想象一下,当一个企业拥有大量的数据时,通常会发生什么。要么需要一个昂贵的数据科学家来分析这些数据,要么需要一个更加廉价但往往不够专业的分析师。这两种情况都有问题。前者成本太高,后者效果有限。但如果有一个AI可以担负这个角色呢?

不过,问题在于,大多数现有的AI语言模型(我们通常称之为大语言模型,或LLM)在处理数据任务时,表现得有些被动。它们擅长回答你提出的具体问题,比如"这个数据集中有多少行?"或者"2023年的平均销售额是多少?"但是,当你让它们自己去探索一个完全陌生的数据库,并找出其中有趣的模式或重要的信息时,它们往往显得迟钝无力。

这就引出了一个有趣的区分。研究团队将AI的能力分为两种:执行智能(executional intelligence)和探索智能(investigatory intelligence)。执行智能就像一个人能很好地完成你分配给他的具体任务。比如,你告诉他"找出所有年龄超过50岁的患者",他能迅速准确地做到。但探索智能则不同——它要求AI能够自己决定什么值得调查,能够提出自己的问题,能够像真正的研究人员那样思考。

举个例子来说,一个电力公司有多年的客户用电记录。一个具有执行智能的AI可以回答"2024年第三季度的总用电量是多少"这样的问题。但一个具有探索智能的AI应该能够自己发现,比如说,某些社区的用电模式在最近两个月发生了显著变化,这可能意味着有新的工业设施入驻了这个地区,或者是天气变化导致的供暖需求增加。这样的发现往往比直接回答一个问题更有价值。

现在的大多数AI评估框架都集中在执行智能上。它们测试AI是否能正确回答预先设定好的问题。这有点像只测试一个医学生是否能准确回答多项选择题,而不是看他们是否能自己发现患者的症状组合意味着什么。这就是为什么国王学院的研究团队决定填补这个空白。

二、一个真实的测试场景:深度数据研究基准

那么,如何才能公平地测试一个AI的探索智能呢?这需要一个特殊的设计。研究团队创造了一个叫做"深度数据研究"(Deep DataResearch,简称DDR)的任务,以及配套的评估系统——DDR-Bench。

想象你是一个工作场景。你的老板给了你一个包含数千条患者医疗记录的数据库,然后只是说"去分析一下,告诉我你发现了什么重要的东西"。没有人告诉你应该关注哪些方面,没有人给你一个具体的研究问题列表,你需要自己决定什么是重要的。这就是深度数据研究任务的本质。

这个任务框架设计得很巧妙。AI模型被给予三样东西:一个真实的大型数据库,一套基本的工具(比如SQL查询工具和Python编程能力),以及一个非常简洁的提示——比如"开始分析患者ID为2048的患者"。没有更多的指导了。从这一点开始,整个探索过程完全由AI自主决定。它需要自己决定应该查看哪些表,应该提出什么样的问题,应该尝试什么样的分析方法。当它认为已经足够了解这个患者时,它自己决定停止探索,然后生成一份详细的分析报告。

这个任务实际上触及了AI助手工作中最困难的部分。在真实工作场景中,一个人往往需要知道什么时候问题被"足够好"地回答了。太早停止意味着你会错过重要的发现。太晚停止则是在浪费时间和资源。这种判断能力不仅需要知识,还需要理解,这恰好是很难教给AI的。

研究团队根据三个完全不同的现实场景建立了DDR-Bench基准。第一个是MIMIC数据库,它包含了来自美国波士顿贝斯以色列迪考尼斯医疗中心的真实患者数据。这个数据库非常复杂,包含29个不同的表,涵盖了患者的人口统计信息、入院记录、诊断、药物治疗、检验结果等各个方面。研究团队从中选择了100个患者作为分析对象,这些患者的病历从简单到极其复杂不等。有些患者只有几次基本的就诊记录,而有些患者的医疗历史则需要跨越多个科室、多种治疗方式的复杂解读。

第二个场景来自GLOBEM数据库,这是一个关于运动和心理健康的真实数据集。它包含了来自穿戴式传感器的信息,比如某个人一整天走了多少步、他们的蓝牙信号强度如何变化(这可以推断社交互动),以及他们的睡眠模式。同时,这个数据库还包含了参与者的心理调查问卷,记录了他们的抑郁症状、焦虑水平和社交适应情况。研究团队选择了91个用户进行分析,这些用户的行为模式各不相同——有些人的数据显示出清晰的周期性,有些则看起来很随机。

第三个场景是10-K数据库,这包含了美国上市公司的年度财务报告中的结构化财务数据。这意味着数字(收入、利润、资产等)和它们背后的故事(公司的战略挑战、市场风险、监管环境等)。一个真正的财务分析师需要同时理解这两个方面,而不仅仅是看数字。研究团队选择了100家具有复杂财务报表的公司进行分析。

这三个场景的选择很有战略意义。医疗数据要求AI能够理解不同医学信息之间的复杂联系。传感器数据要求AI能够识别时间序列中的微妙模式。财务数据要求AI能够在数字和文本信息之间进行推理。加在一起,这三个场景涵盖了现实世界中大多数复杂数据分析工作。

三、如何评估一个AI是否真的发现了什么有价值的东西

现在我们面临一个有趣的问题:我们如何评价AI分析的质量呢?在传统的数据科学任务中,这很简单。给AI一个问题,看看它的答案是否正确。但在开放式的探索中,这就困难得多了。

为了解决这个问题,研究团队想到了一个聪明的办法。他们从每个数据库中提取了一些真实的、可验证的事实。对于医疗数据,这些事实来自医生写的临床笔记。比如,一个医生可能会写"患者有房颤和使用华法林进行抗凝治疗"。这就成为了一个可以检查的事实。对于传感器数据,事实可以从问卷调查中提取。对于财务数据,事实可以从管理层讨论和分析部分提取。

然后,他们建立了一个检查清单。这个检查清单列出了所有这些可验证的事实。当一个AI完成了它的分析并生成了一份报告后,研究团队会检查:这份报告中提到的事实有多少可以从这份报告提供的分析中支持?换句话说,AI是否真的在数据中找到了这些事实,还是只是从它的训练数据中背诵了一些它知道的信息?

这种评估方法有几个优点。首先,它是客观的。没有人需要主观判断一份报告是否"好"。第二,它是可追踪的。对于每一个被AI声称的事实,我们都可以看到它来自数据的哪一部分。这对构建信任很重要。第三,它反映了真实工作中的需求——一个数据分析师的工作成果最终必须能在原始数据中找到支持。

在三个不同的场景中,研究团队建立了相应的检查清单。在医疗场景中,他们创建了774个检查项目。在财务场景中,他们创建了849个检查项目。在传感器数据场景中,他们创建了435个检查项目。所有这些检查项目都是由真实的领域专家——医生、财务分析师、心理学家——进行了验证的。这确保了检查清单本身就是高质量的。

为了进一步保证质量,研究团队进行了一个额外的验证步骤。他们确保了检查清单中的每一项都可以通过分析数据库的某个子集来发现。换句话说,这些检查项目不是"不可能发现的"。这很重要,因为一个不现实的评估系统实际上衡量的是AI的失败,而不是真正的能力。

四、五款最先进的AI在实际工作中的表现

现在到了有趣的部分。研究团队将目前最好的一些AI语言模型投入到这个任务中,看它们表现如何。他们测试了来自AnthropicOpenAI谷歌、腾讯和其他公司的多个模型。其中包括闻名的Claude 4.5 Sonnet、GPT-5.2、Gemini3 Flash等顶级模型。

结果相当有启发性。在所有模型中,Claude 4.5 Sonnet的表现最好,但即使是这个顶级模型,在医疗场景中的准确率也只有大约35%。在财务数据场景中,这个数字跳到了60%多,而在传感器数据场景中大约是39%。这什么意思呢?这意味着,即使是最好的AI,也只能在它生成的分析中正确支持大约三分之一到三分之二的可验证事实。换句话说,当你读一个AI生成的分析报告时,其中可能有大量的陈述实际上没有通过检验。

这些结果看起来可能不太令人鼓舞,但它们实际上告诉我们一些重要的东西。首先,深度数据研究任务确实很难。这不是一个AI可以轻易完成的任务。其次,不同的AI模型之间存在很大的差异。最好的模型比最差的模型好很多。第三,模型性能在不同的场景中变化很大。这表明成功需要特定领域的理解。

当研究团队查看了AI的探索过程时,他们发现了一些有趣的模式。许多AI模型倾向于早期停止。它们会进行十几次查询,提取一些基本的信息,然后就宣布它们已经完成了。更好的模型则往往会进行更长的探索。Claude模型的表现方式特别有趣——它往往在探索的早期不着急地收集信息,而是在后期集中进行一些深度的、针对性的查询。这看起来像是一种先广泛了解,再深入研究的策略,正如一个好的数据分析师会做的那样。

五、AI探索的真实动力:它们如何决定要查什么

为了进一步理解AI的行为,研究团队进行了一个更加细致的分析。他们关注的是AI在探索过程中实际上在做什么。

一个有趣的观察是,当你给AI无限的时间和资源时,它们会做什么?研究团队没有对模型可以进行多少次数据库查询设置任何限制。有趣的是,更好的模型往往会进行更多的查询——不是因为它们更贪婪,而是因为它们似乎知道还有更多可以发现的东西。较差的模型则会更快地自我欺骗,认为它们已经完成了。

研究团队还看了AI在探索过程中如何利用它的"思考"能力。在最近的一些大型语言模型中,存在所谓的"推理令牌"——这是模型用于思考问题的令牌,有点像人类在回答问题前会在脑子里想想一样。研究团队发现了一个有趣的权衡:当你给AI更多的思考时间时,它确实在某些查询上表现得更好。但同时,它进行的总查询次数会减少。这表明思考时间和探索次数之间存在平衡。最好的结果往往出现在中间某个地方,而不是一个极端。

研究团队还研究了AI在探索空间中如何移动。在任何大型数据库中,都有数百个可能的数据字段可以查看。一个好的探索策略既需要广度(查看很多不同的字段),又需要深度(深入挖掘某些特定的字段)。当研究团队绘制出AI的探索模式时,他们发现最好的模型倾向于在广度和深度之间保持一个良好的平衡。相比之下,较差的模型往往会陷入两个极端:要么查看很多不同的字段但都不深入,要么只关注少数几个字段而忽视了其他有价值的信息。

六、一个关键发现:规模不是一切

这里出现了一个出乎许多人意料的发现。研究团队特别看了一个问题:参数更多的模型是否总是做得更好?这是一个重要的问题,因为在深度学习领域,有一个普遍的假设:更大的模型=更强的模型。

研究团队通过详细研究了开源的Qwen模型族来探索这个问题。Qwen提供了多个不同大小的版本,从小到大都有。当研究团队用同一个系列中大小不同的模型进行相同的任务时,他们发现一个令人惊讶的结果:仅仅增加参数的数量并不能显著改善深度数据研究的性能。一个大十倍的模型可能在最终准确率上只会获得3%左右的改进。在有些情况下,一个较小的模型甚至能胜过一个较大的模型。

这个发现意义重大。它表明,对于这种类型的任务,仅仅做"更多的计算"不是答案。问题不在于模型有没有足够的原始能力,而在于这些能力是否被正确地应用到探索问题上。

但当研究团队查看了Qwen的不同版本之间的区别时,情况就变得清晰起来了。Qwen2.5版本和Qwen3版本之间的区别不仅仅在于大小。Qwen3版本是用专门针对代理和推理能力的训练方法创建的。这个版本的模型——即使是一个只有4B参数的小模型——在许多任务上的表现都比一个有72B参数的Qwen2.5模型更好。这强有力地表明,正确的训练策略比原始的参数数量更重要。

这提出了一个重要的见解:不是所有的参数都是平等的。一个为了进行深思熟虑的推理和自主探索而经过训练的小模型,可能比一个只是被扩大了但从未为这些能力进行过优化的大模型更有用。

七、探索中的失败模式:AI做错了什么

为了更好地理解当前模型的局限,研究团队进行了详细的失败分析。他们随机抽取了数百个AI生成的陈述,这些陈述后来被证明是不准确的,然后仔细分析为什么会出错。

一个常见的问题是探索不足。大约有一半的错误涉及AI没有查看足够的数据。有时这表现为狭隘的探索——模型只查看了数据的一小部分,比如只看了一个患者的最近几次就诊,而没有查看完整的医疗历史。有时这表现为浅薄的探索——模型获得了高层概览但没有深入到细节中。比如,它可能会看到某个患者被诊断为糖尿病,但不会查看具体的血糖测试结果或用过什么药物。

第二个常见的问题是数据到洞见的转化失败。即使AI确实获得了相关数据,它有时也无法正确地解释这些数据。比如,一个模型可能会看到一个数据点显示"血糖水平:350毫克每分升"——这对医疗专业人士来说显然是异常高的——但模型可能不会意识到这意味着什么,或者会得出错误的结论。有些模型会进行过度推理,做出数据不支持的大胆声称。有些模型则过于保守,完全错过了明显的模式。

第三个问题是所谓的"迷失在背景中",这对较小的模型来说尤其常见。当一个模型进行了许多次查询后,早期的结果往往会在长长的对话历史中被淹没。模型会重复自己,尝试相同的查询多次,或者简单地忘记了之前发现的内容。更复杂的是,模型有时会生成最后的总结,但这个总结会遗漏或误解了在探索过程中实际找到的信息。

这些失败模式告诉我们什么?它们表明探索智能需要多个相互联系的能力:首先是知道要查什么,其次是有耐心进行足够深入的查询,第三是能够正确解释获得的信息,第四是能够记住和整合从多个查询中获得的信息。当任何一个环节断裂时,整个分析就会出问题。

八、探索中的隐藏计划:模型如何思考它在做什么

这里有一个特别有趣的发现。当研究团队查看那些表现最好的模型的探索过程时,他们注意到一个模式。这些模型似乎遵循某种隐含的计划,虽然它们从不显式地声明这个计划。

这是什么意思?简单来说,当你观察一个好的分析师的工作时,他们往往有某种方法。也许他们从人口统计开始,然后转向医疗历史,再到药物治疗,最后到检验结果。这个顺序不是随意的,而是反映了他们对信息如何相互联系的理解。

Claude和其他最好的模型似乎在做类似的事情,尽管没有人显式地告诉它们应该这样做。早期的查询往往是探索性的和广泛的——模型在问"这个患者有什么样的数据?"然后随着它了解到更多信息,它的查询变得更有针对性。它开始问"既然我知道患者有心脏病,我应该查什么特定的相关数据?"这种从广泛到具体的进展看起来很像一个真正的人类分析师会做的。

但这是一个隐含的计划。模型没有说"我现在要进入第二阶段"。它不是通过显式规划实现这个的,而是通过大量的样本学习了应该如何进行有效的数据探索。这比只是给模型一个明确的行动清单更加灵活和优雅。

九、代理的记忆问题:太多信息反而是问题

研究团队还测试了一个常见的想法:如果AI有更好的记忆,会不会表现更好?

为了测试这个,他们给一些模型添加了一个"记忆"机制。基本思想是这样的:当一个对话变得很长时,不是让模型记住所有内容,而是定期摘要对话。模型会生成一个"摘要笔记",然后只保留最近的几条信息和这个笔记。

结果令人惊讶。在某些情况下,这个记忆机制确实有帮助。但在其他情况下,它实际上伤害了性能。为什么?原因很微妙。虽然一个好的摘要可以帮助模型避免重复过去做过的事情,但它也会导致模型变得过于激进。一旦有了一个摘要,模型似乎会急于读取更多的数据,而不是深入思考。它会尝试做太多事情,而不是仔细分析任何一件事。

这表明在推理和行动之间存在一个微妙的平衡。没有任何记忆,模型会不堪重负。有太多的存储,模型会变得鲁莽。最好的结果往往出现在一个中间点,这恰好与研究团队之前的观察一致。

十、成本与收益:花钱能否买到更好的分析

最后,研究团队看了一个实际的问题:实现更好的分析需要付出多大的代价?

在当今的AI世界中,不同的模型有非常不同的成本。有些模型非常便宜但性能较差,有些模型非常昂贵但性能好一点点。研究团队分析了在三个不同成本维度上的性能:查询次数、总令牌消耗(包括所有输入和输出),以及实际的金钱成本。

有些有趣的模式出现了。Claude是最昂贵的选项之一,但它提供了最好的性能。Gemini的便宜程度是它的一个优势,但性能也相应地较低。有趣的是,DeepSeek这样的较新模型似乎实现了一个很好的成本效益折中。在某些场景中,DeepSeek的性能不如Claude,但成本只是其一小部分。

但最有趣的观察是关于令牌与性能的关系。早期的查询相对便宜——它们往往很快就返回结果。但随着探索的进行,后期的查询变得越来越昂贵。这是因为为了发现真正有趣的东西,模型最终需要进行复杂的、多步骤的分析。有趣的是,这些后期查询往往产生最有价值的发现。所以从某种意义上说,最重要的发现在成本上是最昂贵的。这对组织有所启示:如果你想获得真正有价值的洞见,你需要愿意投入足够的资源让模型进行深入的探索。快速而廉价的分析会得到快速而廉价的结果。

十一、幻觉问题:AI是否在编造故事

一个自然的问题是:AI会不会生成它从数据中看不出的事实?换句话说,它会不会通过从它的训练数据中背诵事实而作弊呢?

研究团队进行了一个详细的幻觉分析。他们随机抽取了大量的AI生成的陈述,然后人工检查每一个,看它是否真的可以从提供给模型的数据中推导出来,或者是否只是一个模型"记得"的事实。

结果相当令人鼓舞。总体而言,幻觉率非常低。在大多数模型中,幻觉率在0-5%之间。这意味着当一个模型做出一个错误的声称时,它通常不是因为幻觉,而是因为真正的推理失败——它在数据中看到了什么东西,但解释错了。

这是一个重要的发现,因为它表明这些模型至少是在真诚地尝试使用提供给它们的数据。它们不是在作弊。当它们失败时,通常是因为理解或推理的失败,而不是因为它们在制造事实。

十二、模型与方法:是什么真正推动了性能

在所有这些细节中,一个关键的教训脱颖而出。研究团队测试了许多不同的方法来改进模型的性能。给模型更多的参数?效果有限。给模型更好的记忆?有帮助,但也有风险。给模型更多的"思考时间"?有帮助,但有一个最优点。

但当他们查看最好表现的模型时,他们发现一个共同点:这些模型都是用了特殊的方法来训练的,强调了推理和智能体行为。Anthropic的Claude模型就是这样的——它们被专门训练以进行长链推理和自主决策。腾讯的GLM和QWen的新一代模型也是如此。

换句话说,是训练策略,而不仅仅是模型大小或外部辅助工具,最终决定了一个模型能否有效地进行探索性的数据分析。

这对AI开发的未来有深远的影响。这意味着如果你想要一个真正能够自主思考和探索的AI助手,你不能只是获取一个大规模的模型。你需要用正确的方法来训练它,强调的是理解和自主决策能力,而不仅仅是在大量数据上扩展参数。

十三、意义与未来

那么,所有这一切对普通人意味着什么?

首先,它告诉我们现在的AI还不能完全取代数据分析师。即使是最好的模型在这项工作上也只能达到60%左右的准确率。这意味着人类的监督和验证仍然至关重要。

其次,它表明未来的AI发展方向。我们需要的不是更大的模型,而是更聪明的模型——那些能够思考、计划和进行自主探索的模型。

第三,它表明了某些领域的企业和组织可能获得的好处。如果一个公司拥有大量的数据但没有足够的分析资源,这些新一代的AI助手可以帮助他们更有效地利用这些数据。但前提是他们理解AI的限制,并建立适当的验证和监督机制。

最后,对于想要开发这种能力的研究人员和工程师来说,这项研究提供了一个清晰的信号:重点应该是开发能够进行有效推理和自主探索的算法和训练方法,而不是简单地构建更大的模型。质量胜过数量。智能胜过规模。

这项研究基本上是在回答一个关键问题:我们现在离真正的自主数据分析AI有多远?答案是:我们在正确的轨道上,但还有很长的路要走。模型现在表现出了一些真正的探索智能,但它们还需要改进的地方有很多。而最有希望的改进方向不是建造更大的怪物,而是构建更聪明、更有针对性的思考机制。

相关内容

监管批复!卢永胜就任兴海农...
2026年2月4日,根据国家金融监督管理总局消息,《兴海农商银行关...
2026-02-04 15:42:14
特斯拉的销量已经不重要了
作者I山上 薛星星 对于特斯拉——这家全球有史以来市值最高、同时...
2026-02-04 15:42:02
实拍限制阿森纳人海角球战术...
实拍限制阿森纳人海角球战术 切尔西3将冲向中圈
2026-02-04 15:41:46
原创 ...
78岁意大利政要突然将矛头指向中国,竟称世界秩序已名存实亡。欧洲衰...
2026-02-04 15:40:14
险资入市新规提振,港股通非...
截止2月4日13点55分,上证指数涨0.23%,深证成指跌0.72...
2026-02-04 15:39:57
“蛇吞”华人文化背后,真正...
文|文娱先声 在公众视野消失多年的邵氏兄弟,最近登上了热搜。 近...
2026-02-04 15:39:52
从融资到风控:微众银行企业...
当下,新一轮科技革命与产业变革澎湃而至,数字化浪潮以史无前例的态势...
2026-02-04 15:39:31
晶科能源股价涨停,工作人员...
红星资本局2月4日消息,对于马斯克团队考察过晶科能源(688223...
2026-02-04 15:38:58
蜂拥入市,00后想变身「古...
作者 |豹变 高泽 2026年开年,A股以日线“17连阳”的强势...
2026-02-04 15:38:52

热门资讯

原创 哈... 哈斯车队近日宣布,前Alpine F1车手杰克·杜汉将在2026赛季加入车队,担任储备车手。这位年仅...
原创 农... 棋盘上的空气仿佛凝固了,丁浩的手指无意识敲打着计时器,眼睁睁看着井山裕太落下黑301手。 这位36岁...
可新增1800个学位!福建医大...   可新增1800个学位!近日,位于福州闽侯县上街镇的福建医大附属中学项目主体工程及室内外装修已完工...
原创 韩... 随着2026年米兰冬奥会的临近,韩国媒体再次将矛头指向中国短道速滑队,掀起新一轮针对中国选手的舆论风...
原创 人... 如果有一天,地球上所有森林在一夜之间统统消失,人类还能生存吗? 森林一夜消失,人类不会第二天就集体...
汉密尔顿经纪人海因斯再次分道扬... 汉密尔顿经纪人海因斯再次分道扬镳,或担任周冠宇经纪人! #F1 #赛车 #2026年F1赛季 据《每...
原创 张... 从澳网漂移至阿布扎比500赛后,张帅再次让大家见识了她这把37岁“岁月妖刀的”实力,收获双打开门红的...
记者:博埃在训练中途退出,随后... 据德天空记者Torben Hoffmann的消息,拜仁后卫博埃在训练中途退出,随后前往诊所检查。记者...