谷歌Gemini2.0大模型加持,AI“贾维斯”如何接管人类电脑?
创始人
2024-12-17 12:02:17
0

在科技飞速发展的今天,人工智能正以前所未有的速度改变着我们的生活和工作方式。其中,AI自主操控电脑成为了科技大厂们重点发力的战场,谷歌版“贾维斯”的即将问世,更是引发了广泛的关注。

Anthropic的Claude 3.5已经展示了自主看屏幕操作光标完成复杂任务的能力,而谷歌正在开发的Project Jarvis更是备受期待。这个由未来版Gemini 2.0驱动的项目,预计在12月亮相。它本质上是一个大动作模型,专门针对谷歌Chrome浏览器进行了优化。其操作原理与 Claude 3.5类似,通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,从而帮助人们完成基于网页的日常任务,如收集研究信息、购物、预定航班等。不过,它在执行操作时中间会有几秒钟的思考时间,目前在终端设备中运行还不太现实,仍需在云上操作。

与此同时,微软团队也不甘示弱,悄悄放出了OmniParser。这是一个屏幕解析工具,可将截图转化为结构化数据,帮助AI精准理解用户意图。通过一系列的实验评估,如SeeAssign 任务、ScreenSpot评估、Mind2Web评估和AITW评估等,证明了OmniParser能够显著提高GPT-4V的性能,使其在处理各种任务时更加准确和高效。它不仅能准确识别用户界面中的可交互图标,还能理解屏幕截图中各种元素的语义,并将预期动作与屏幕上的相应区域关联起来。

OpenAI内部也有了AI智能体雏形,能够操控计算机完成在线订餐、自动查询解决编程难题等任务。包括苹果在内的科技巨头也在积极布局,预计在明年发布跨多个APP屏幕识别能力。

这些进展都表明,AI自主操控电脑的时代正在来临。然而,要实现像科幻作品中“贾维斯” 那样完美地接管人类电脑,还有很长的路要走。首先,模型需要具备强大的屏幕解析能力,这包括准确识别图标和理解语义等方面。其次,要解决在不同设备和平台上的兼容性问题,确保能够稳定运行。此外,还需要考虑数据安全和隐私保护等重要因素。

尽管面临诸多挑战,但科技的进步总是令人充满期待。谷歌Gemini 2.0加持的“贾维斯”以及其他厂商的相关研究成果,都为我们展示了未来人工智能的巨大潜力。也许在不久的将来,我们真的能够像钢铁侠一样,拥有一个智能的“贾维斯”来协助我们处理各种电脑任务,使我们的生活和工作变得更加便捷和高效。

相关内容

很难找到比这篇,更全的日照...
如果你是首次来日照,网红攻略看的眼花缭乱的,一直搞不明白威海到底应...
2025-08-22 00:44:08
暑期住宿市场展现多元活力:...
2025年暑期旅游市场呈现多元化、深度化特征,酒店与民宿作为住宿两...
2025-08-22 00:42:52
原创 ...
“蜀中无大将,廖化作先锋”这个典故大家肯定都不陌生,说的是姜维北伐...
2025-08-22 00:37:25

热门资讯

樊振东周冠宇晒照 互关!有着同... 樊振东,这位乒乓球界的超级明星,与F1赛道上的一代骄子周冠宇,近日在社交媒体上互动频繁,引发了一波热...
申花翻译比主教练还激动 训话爆... 申花翻译比主教练还激动 训话爆粗:谁TM不想踢就下来!
董路以《孙子兵法》隔空“指教”... 董路以《孙子兵法》隔空“指教”苏超“十三妹”常州队
长期喝白开水VS长期喝茶,对身... 本文转自【央视新闻客户端】; 有些人日常只喝白开水、瓶装水,很少喝茶或饮料,还有些人总觉得白开水没有...