过去两年,大多数关于AI的讨论都集中在模型上——模型有多强大,演进速度有多快。但往往被忽视的是这些模型所依赖的数据质量。
在金融服务行业,数据一直是我们管理风险和生成洞察的核心。这一点没有改变。AI改变的是数据策略中的缺陷暴露的速度。如果所有权不明确,或者不同系统之间的定义存在差异,AI往往会暴露这些问题,而不是解决它们。
这就是为什么对贝莱德来说,AI战略始于更基础的东西:数据所有权和语义。
在许多组织中,数据作为应用程序和工作流程的副产品不断积累。这些"排放物"被存储、转换和报告,但随着时间推移,上下文会侵蚀,定义会漂移,责任变得模糊。当经验丰富的分析师解读结果并用机构知识填补空白时,这种方式可以运作,但当机器被期望对相同资产进行推理时,效果就不那么好了。
如果AI系统要可靠运行,它们使用的数据需要明确的所有权、记录的血缘关系和一致的定义。我们越来越多地将数据视为产品而非排放物。这意味着有人对其负责,治理从一开始就内置其中,数据的设计使其可以被重复使用——不仅用于单个报告,还可用于所有工作流程,包括AI驱动的工作流程。
影响这项工作的一个决策是我们选择在不集中化的情况下标准化数据资产。
在受监管的行业中,应对复杂性的传统方式是整合——将所有内容移至一个仓库并在那里控制。这可以改善监督,但也可能拖慢团队速度,并在数据与最了解数据的人之间制造距离。我们采用联邦模式运营,业务和产品团队对其数据产品保持责任,因为他们最接近这些数据集支持的投资流程。
Snowflake是我们标准化这些能力的基础,它为我们提供了一种一致的方式来保护、共享和审计整个公司的数据。强大的基于角色的访问控制和原生数据共享使我们能够在保持互操作性的同时扩展规模,而无需每个决策都通过单一的集中化小组。
你可以在我们通过Aladdin数据云交付数据的方式中看到这种平衡。不久前,分发数据意味着平面文件、FTP传输和大型模式定义。这种方式有效,但不适合当今的环境。现在客户可以以现代化、云原生的方式将其记录账簿和市场数据直接集成到更广泛的数据资产中。
在金融服务领域,治理不能事后添加。随着我们持续发展数据平台,我们非常重视元数据和问责制。没有任何资产可以在没有明确所有权和来源记录的情况下进入平台。随着AI驱动的工作流程和自然语言界面越来越多地嵌入日常流程,这种可追溯性只会变得更加重要。
AI还揭示了更微妙的东西:语义。两个系统可以使用相同的字段名称,但含义完全不同。人类通常可以解决这个问题,但AI系统不能。如果上下文是隐式的而非显式的,可靠性会迅速崩溃。
这是我特别关注行业在开放语义交换(OSI)方面工作的原因之一。目标很简单——使组织能够交换的不仅是数据,还有数据背后的含义。当语义可移植时,你不必在每次引入新工具、模型或智能体时重建解释层。在支持AI的生态系统中,这种互操作性很快就会变得实用。
随着我们加强所有权和共享标准,我们看到团队运营方式发生了显著变化。花在管理定制传输或拼接系统上的时间减少了,更多时间集中在提高数据产品本身的清晰度和实用性上。根据我们的经验,敏捷性和控制力并不矛盾。有了明确的标准和问责制,它们往往会相互加强。
市场和技术将继续发展。新的资产类别将出现。数据界面将变得更加直观。为未来做准备意味着继续完善基础——数据本身的所有权、治理和清晰含义,而不是追逐下一个模型发布。
贝莱德的使命是帮助越来越多的人体验财务健康。AI可以加速我们实现这一使命,但前提是其底层数据是有所有权的、受治理的和被清楚理解的。
对于考虑AI战略的组织来说,这才是真正工作的开始。
Q&A
Q1:贝莱德为什么认为AI战略应该从数据所有权和语义开始?
A:因为AI会快速暴露数据策略中的缺陷。如果数据所有权不明确或不同系统间定义不一致,AI系统无法可靠运行。贝莱德将数据视为产品而非副产品,确保有人对数据负责,治理从一开始就内置,数据可以跨所有工作流程重复使用。这种基础性工作比追逐最新模型更重要。
Q2:贝莱德在数据管理上采用了什么模式?为什么不集中化管理?
A:贝莱德采用联邦模式,业务和产品团队对各自的数据产品保持责任,因为他们最接近投资流程。虽然集中化可以改善监督,但会拖慢团队速度,并在数据与最了解数据的人之间制造距离。通过Snowflake平台,贝莱德实现了标准化但不集中化,既保持互操作性又能灵活扩展。
Q3:开放语义交换(OSI)对AI应用有什么重要意义?
A:OSI使组织能够交换数据及其背后的含义。两个系统可能使用相同字段名但含义完全不同,人类可以理解但AI系统不能。当语义可移植时,不必在每次引入新工具、模型或智能体时重建解释层,这种互操作性在AI生态系统中非常实用,能显著提高系统可靠性。