当你用手机查找一个地址时,会经历这样的过程:点击搜索框、输入关键词、看到结果列表、选择其中一个、浏览详情页面。这个过程看似简单,但对于训练一个能够自动帮你完成这些任务的AI助手来说,却是一个难得的宝贵数据。这项由Trillion Labs和KAIST联合完成的研究,发表在2026年2月的论文预印本上,解决了一个看似简单却极其复杂的问题:如何让AI能够预测你在手机上的下一步操作会导致屏幕变成什么样子?
一、为什么这个问题这么重要
想象一下,你现在要教一个完全不懂手机操作的人来完成日常任务。最好的办法是什么呢?当然不是给他一本厚厚的说明书,而是让他多次练习,每次他做出一个动作之前,先让他想象一下结果会是什么样。这就像AI的学习方式一样。如果一个AI能够准确预测每个动作之后屏幕会发生什么变化,那么它就能更聪慧地规划接下来的行动,就像一个棋手能够看多步棋那样思考问题。
目前的手机AI助手面临着一个困境。有些研究团队教AI使用文字来描述下一屏会是什么样子,但这样做会丢失很多重要信息,比如按钮的位置、颜色,以及具体的布局。另一些团队尝试让AI生成图片来显示下一屏的样子,但结果往往很糟糕——文字会变成乱码,按钮会扭曲变形,整个界面看起来都不对劲。这就像让一个画家用最粗糙的笔来描绘细节一样,结果自然令人失望。
二、一个意想不到的解决方案
研究团队提出了一个看起来很古怪但实际上非常聪慧的想法:与其让AI生成图片,不如让它生成可以被渲染成图片的代码。简单来说,他们没有让AI直接画出下一屏长什么样,而是让AI写出一段HTML代码(就是构成网页的那种代码),然后这段代码会自动转换成图片显示在屏幕上。
这个想法为什么这么聪慧呢?原因在于AI在处理文本方面已经相当擅长了。现在的大型语言模型,也就是那些能够理解人类语言的AI,实际上在它们的训练数据中看到过大量的网页代码。因此,让AI生成代码对它来说反而比直接生成像素图像要容易得多。而且,由于代码本身具有逻辑结构,生成出来的界面不会有乱码文字或扭曲按钮的问题——代码要么能正确运行,要么会出错,不会出现那种"勉强能看但很难用"的中间状态。
这就像是让一个懂建筑的人提供蓝图,而不是让一个只会素描的人试图画出整栋建筑一样。蓝图包含了所有必要的信息,而且非常精确,任何人都能根据蓝图准确地建造出来。
三、建立这个系统需要什么
研究团队给他们的模型取了一个有趣的名字:gWorld。他们用自己开发的新方法创造了大量的训练数据。首先,他们从已有的手机操作数据库中提取了现有的轨迹。这些轨迹记录了用户在做某个任务时的每一个点击、滑动动作,以及这些动作导致的屏幕变化。
接着,他们用了一个巧妙的三步法来准备训练数据。第一步,他们把这些操作序列转换成"如果用户在当前屏幕做了A动作,那么下一屏会是什么"的格式。第二步,这是最关键的部分,他们用一个更强大的AI模型(谷歌的Gemini)来把每一个"下一屏"的图片转换成可以运行的HTML代码。第三步,他们要求AI模型先用自然语言解释这个动作会导致什么样的结果,然后再生成代码。这最后一步看起来像是在让AI"先想清楚再做",而研究显示这样做确实能提高结果的质量。
通过这个过程,研究团队从现有的多个手机操作数据库中生成了26万个训练例子。他们用这些例子来训练两个版本的模型:一个较小的版本有80亿个参数(可以理解为AI的"大脑细胞数量"),一个较大的版本有320亿个参数。这些数字听起来很大,但实际上比许多其他尖端AI模型要小得多,这意味着gWorld可以在更普通的计算机上运行,不需要特别昂贵的硬件。
四、为了公平竞争而创建的测试标准
为了知道这个新系统到底有多好,研究团队做了一件很重要的事情:他们创建了一个全新的评估基准,叫做MWMBench。为什么要创建新的呢?因为现有的评估方法都有问题。有些方法只能测试基于文字的预测,无法评估视觉质量。有些方法会先把用户的点击坐标转换成文字描述,这样就引入了另一个AI的错误。这就像用一个可能坏掉的放大镜来测试另一个放大镜的质量,结果会被扭曲。
MWMBench包含了来自四个不同数据来源的样本,加上两个来自之前没有见过的应用和数据的"外部测试集"。这确保了评估能够反映真实世界的情况,而不仅仅是AI在训练数据上的表现。他们甚至手动收集了包含韩文界面的测试数据,用来检测AI是否能够理解和处理非英文的手机应用。这是一个非常周全的评估框架,确保了结果的可信度。
五、惊人的性能表现
现在到了最让人印象深刻的部分。研究团队把gWorld与许多其他尖端模型进行了比较,包括一些参数数量大到gWorld数百倍的模型。结果是什么呢?gWorld 32B版本(即320亿参数的版本)的表现超越了所有对手。更惊人的是,gWorld 8B版本(80亿参数)的表现甚至好过那些拥有1000亿到4000亿参数的巨型模型。
这意味着什么呢?这意味着gWorld不仅仅是一个更好的模型,而是一个更聪慧的模型。它以更少的参数数量达到了更好的结果,这在机器学习中被称为"计算效率"。用一个类比来说,如果其他模型是用一支很粗的笔来描绘细节,那么gWorld就像是用一支恰到好处的笔,既能表达所有必要的信息,又不会有多余的浪费。
在六个不同的测试集上,包括来自未见过的应用数据的测试集上,gWorld都保持了这种优势。当研究人员测试AI是否真的理解了手机操作的逻辑(而不是仅仅复制输入图像)时,gWorld的表现尤其出众。其他一些模型在试图生成下一屏时,基本上就是把当前屏幕复制一遍,只做一些微小的修改。但gWorld会真正改变屏幕的内容,以匹配用户所做动作应该产生的结果。
六、为什么基于图像的方法会失败
研究中有一个特别有意思的发现。研究团队详细分析了为什么那些试图直接生成图片的模型会表现不佳。他们发现,这些模型实际上在复制当前屏幕和目标屏幕之间的相似性上做得很好,但这恰恰说明了问题所在。当手机操作通常只涉及屏幕的小范围变化时(比如一个文字被输入框中的新文字替换),复制当前屏幕会得到一个与目标屏幕非常相似的结果,即使这个结果在语义上是错误的。
想象一下,如果你要求某人根据"用户点击了搜索按钮"来预测下一屏会是什么,而那个人的策略是"通常搜索后屏幕看起来差不多,所以我就把当前屏幕稍微改一改"。这在大多数情况下可能都能蒙混过关,因为搜索结果页面的布局经常和搜索框所在的页面类似。但这不是真正的理解——这是在投机取巧。gWorld的方法通过强制要求输出是有效的、可执行的代码,从根本上避免了这种作弊行为。代码要么正确地描述了目标状态,要么就会出错。
七、数据规模的神奇力量
研究团队进行了一个引人入胜的实验:他们测试了当给gWorld更多的训练数据时会发生什么。他们尝试了从3.7万到24万个样本的不同规模,结果显示出一个完美的指数增长模式。简单来说,每当他们翻倍训练数据时,模型的性能就会按照一个可预测的公式进行改进,而不是随意波动。这个发现非常重要,因为它表明这个方法远远没有达到极限。研究团队计算出,根据他们使用的四个数据库,实际上可以生成高达370万个训练样本,而他们只使用了其中的7%。
这意味着未来的版本可以表现得更好,只需要投入更多的计算资源来处理更多的数据。这就像种地一样——如果你给土地施更多的肥料和营养,植物会长得更好。但这个"地"远远没有被完全开发。
八、每个环节都很重要
研究人员进行了"消融实验",这是一个花哨的方式来说"我们一个一个去掉各个组件,看看哪个最重要"。他们发现了什么呢?他们的三步数据准备过程(从轨迹中提取、用AI转换成代码、添加推理步骤)中的每一步都起到了关键作用。当他们试图用更简单的方法时,比如让Gemini直接根据当前屏幕和操作生成代码而不通过他们的多步骤流程时,结果就不如他们的方法好。这验证了他们选择的每个设计决策都是必要的,不是多余的。
九、真正的考验:在实际任务中的表现
一个模型在预测下一屏方面表现良好是一回事,但它能否真正帮助AI助手完成实际工作呢?研究团队进行了最后的测试。他们把gWorld整合到一个现有的手机操作AI助手中,看看拥有准确的"下一屏预测"能否让这个助手做得更好。结果是肯定的。当助手能够使用gWorld来预测不同操作的结果并选择最有希望的那个时,它完成任务的成功率提高了大约20到30个百分点。这是一个显著的改进,足以证明这项研究的实用价值。
十、突破的实质
从更高的层面来看,这项研究所做的事情是重新定义了"视觉世界模型"这个概念。此前的研究要么坚持使用文字(牺牲视觉丰富性),要么依靠直接生成像素(往往效果不佳)。gWorld提出的代码生成方法是一个真正的创新——它结合了两个世界的优点:保留了视觉信息的完整性和准确性,又利用了AI在处理结构化文本(比如代码)方面的天然优势。
而且,由于代码是可以自动验证的(要么能运行,要么不能),这个方法也比其他方法更容易确保质量。这就像是选择了一个自带质量检查的方案,而不需要依赖复杂的外部评估系统。
十一、考虑到真实世界的局限性
研究团队也很诚实地指出了他们方法的局限性。首先,现有的方法虽然对大多数手机应用都有效,但在处理复杂的动态内容时可能遇到问题,比如视频播放器或实时数据流。其次,模型目前只能根据单一的当前屏幕状态来预测下一屏,这意味着它无法记住更长期的交互历史。在某些应用中,理解用户之前的操作对于正确预测下一屏至关重要。
尽管如此,这些局限性并不会否定这项研究的价值。完美是进步的敌人,这项工作已经在多个方面取得了突破,为后续的改进奠定了基础。
十二、对未来的启示
这项研究打开了一扇新的大门。首先,它证明了代码生成作为一种表示视觉状态的方式是可行且高效的。这个想法可能被应用到其他需要理解动态用户界面的领域。其次,它展示了当你选择正确的中间表示方式时,问题变得更容易解决。就像数学中选择正确的坐标系统能简化复杂的计算一样,选择代码而不是像素大大简化了AI需要学习的任务。最后,它强调了合成高质量训练数据的重要性。通过聪慧地利用现有的操作数据库,研究团队创建了一个强大的训练集,而不需要进行大规模的新数据收集。
对于那些致力于构建更好的AI助手的公司和研究团队来说,gWorld提供了一个新的参考框架。如果你想构建一个能够理解和预测复杂用户界面变化的系统,代码生成可能是一个比直接图像生成更聪慧的选择。而且,如果你能够系统地从现有数据中提取高质量的训练例子,你就可以用相对较小的模型达到甚至超越更大模型的性能。
这次研究的真正价值在于它提供了一个新的思维方式。在一个容易陷入"用更多的参数、更多的计算、更多的数据"思维陷阱的领域中,gWorld证明了创意的设计选择有时候比蛮力更有效。它展示了通过深思熟虑的系统设计,我们可以用更高效的方式解决看似复杂的问题。
---
Q&A
**Q1:gWorld为什么选择生成代码而不是直接生成图像?**
A:生成代码具有几个关键优势。首先,AI模型在其训练数据中已经看到过大量网页代码,因此生成代码对它来说比生成像素更容易。其次,代码具有逻辑结构,确保输出要么完全正确,要么会报错,不会出现文字乱码或界面扭曲的"半成品"问题。最后,代码可以自动被渲染成精确的像素图像,既保持了视觉准确性,又避免了直接生成图像的所有缺陷。
**Q2:MWMBench为什么要单独创建,而不是使用现有的评估方法?**
A:现有的评估基准存在根本缺陷。有些只能测试文字预测,无法评估视觉质量。有些会先把操作转换成文字,这样会引入额外AI的错误。MWMBench解决了这些问题,测试了多语言应用,使用原始坐标而非转换后的文字,并包括未见过的测试集,确保评估真正反映真实世界性能。
**Q3:gWorld这么小的模型为什么能打败大得多的模型?**
A:这不是参数数量的问题,而是设计的聪慧性。通过选择用代码而非像素表示下一屏状态,gWorld避免了直接图像生成的所有缺陷。而且利用了AI已经擅长处理的结构化文本。另外,研究团队使用了一个包含推理步骤的智能数据准备流程,使得即使较小的模型也能学到问题的本质。