极客征服AI的方式
是让它尽情地游戏
文 | 羊羊
编辑 | 羊羊、小小树
2024年,诺贝尔化学奖破天荒地被授予一位AI公司老板。
你没看错,诺贝尔奖也没弄错。
这位叫戴米斯・哈萨比斯的男人,带领名为DeepMind的团队,开发出AI模型AlphaFold2,解决了困扰生物学界50年的蛋白质结构预测难题。
获得诺贝尔跨界授奖,实至名归。
△ 哈萨比斯获得2024诺贝尔化学奖
奇闻背后,有一个非常关键的问题:他是怎么做到的?
在很多人在质疑AI,至少认定现阶段的AI还不够“聪明”时,哈萨比斯用了什么方法,让AI超越了世界上最顶尖的科学家?
最近,一部名为《思考之弈》(The Thinking Game)的纪录电影选择在油管上发布,免费供所有人观看。
问题的答案,就藏在这部电影里。
免费并不意味着该片“含金量低”,恰恰相反,正因为《思考之弈》中展现的内容太有价值,制片方才想用免费的方式让尽可能多的人看到。
简单来说,《思考之弈》讲述了一群“计算机科学疯子”如何将一个近乎狂妄的梦想变为现实的故事——他们想让AI具备超越人类水平的跨领域学习和推理能力,从而让AI服务全人类。
这群“疯子”的领头人正是哈萨比斯,他召集了当今世界最聪明的一群人,创立了DeepMind,传奇从此开始。
△ 哈萨比斯创立了AI界的传奇公司DeepMind
电影的中文译名《思考之弈》翻译得颇为传神。
首先,哈萨比斯从小就是个国际象棋神童,在研究AI前,他的超高智商在棋盘上已展现得淋漓尽致;另外,“对弈”也正是哈萨比斯训练AI的独门秘籍。
没错,用下棋训练AI,甚至让AI去玩游戏(哈萨比斯曾做过游戏设计师),正是这些颇具娱乐性的训练方式造就了超越人类的智慧。
△ DeepMind团队合影,当时他们带着AlphaGo成功挑战了围棋国手
能想出这种训练方法的人,必然也是一位有趣的极客。
事实上,早在2017年,《银翼杀手2049》上映后,哈萨比斯曾与维伦纽瓦导演展开跨界对谈。
哈萨比斯那时坦言:
《银翼杀手》是我一直以来最喜欢的一部电影,它深深打动了年少时代的我,所以我才开启了自己从事AI研究这条路。
影迷、棋手、游戏设计师、AI工程师、科技公司老板、诺贝尔奖得主……这些看似互不关联的标签在哈萨比斯身上得到了完美统一。
前不久,《时代》杂志公布2025年度人物。
今年的这份荣誉不是授予单独一个人,而是一个群体——人工智能的缔造者们(The Architects of AI)。
八位AI领域的领袖作为代表登上《时代》杂志封面,其中就包括哈萨比斯,他的旁边是山姆·奥特曼、黄仁勋、马斯克……
△ 八位AI领域的领袖登上《时代》杂志封面,右三为哈萨比斯
这些当代最伟大的头脑里装了些什么?真让人好奇!
今天我就借着《思考之弈》这部电影,进入哈萨比斯的头脑。
里面装着的奇思妙想,远比你想象得更加有趣。
#01
一群“疯子”的集结:
天才少年豪赌AI创业
故事的主角,是一个名叫戴米斯・哈萨比斯的英国男人。
纪录片开篇,他便坦言自己“有点不安分”,并宣告了一个不同寻常的人生目标。
我的整个生命目标就是解决通用人工智能(AGI)。并在此过程中,将AI作为终极工具,解决世界上所有最复杂的科学问题。
△ 故事的主角,戴米斯・哈萨比斯
哈萨比斯从小就展现出天才的一面。
他4岁时迷上国际象棋,6岁拿下伦敦8岁以下锦标赛冠军;9岁成为英国11岁以下国家象棋队队长;13岁在14岁以下组国际象棋比赛中斩获全球第二名,达到国际象棋大师水平。
在纪录片中,哈萨比斯回忆道,当他一场接一场地比赛时,他开始对自己的获胜策略进行元认知思考:不仅仅是他的大脑,而是所有人的大脑是如何解决问题、分析信息并帮助人们度过日常生活的?
这种对思维本质的好奇,早早在他心中埋下了种子。
十几岁时,他痴迷于编程,并获得了顶尖游戏公司Bullfrog的职位。
△ 少年时代的哈萨比斯
在那里,他参与开发了模拟经营游戏的鼻祖《主题公园》,负责设计游戏中虚拟小人的AI行为。他致力于模仿有趣的人类行为,让模拟世界更加生动。
例如,他设计了游客在玩完刺激的游乐设施后会呕吐,而其他游客看到呕吐物也会跟着不适,这就需要玩家雇佣清洁工及时清理。这种对复杂系统和自主智能体的早期探索,为他后来的AI研究奠定了基础。
△ 哈萨比斯曾参与开发游戏《主题公园》,这段经历为他研究AI奠定了基础
正当这位游戏界的新星冉冉升起之时,哈萨比斯却毅然转身扎进剑桥大学,攻读神经科学博士学位。即使游戏公司老板开出一百万英镑的巨额年薪,也留不住他。
他的理由很简单,他需要从“唯一存在的智能样本”——人类大脑中,寻找构建AI的灵感。他相信,理解大脑是解决智能问题的关键。
在21世纪初,当“AI”在学术圈还是个近乎“尴尬的词汇”,说出来会被认为“不是个严肃的科学家”时,哈萨比斯却坚信这是人类最伟大的征程。
他找到了同样痴迷于通用人工智能的伙伴谢恩・莱格,并说服莱格,实现他们宏大理想的正确途径是创办一家公司,而不是留在学术界。
△ DeepMind的另一位创始人谢恩・莱格
于是,在2010年,DeepMind诞生了。
他们的目标简单而又狂妄:“建立世界上第一台通用学习机器”,也就是AGI。这个听起来像科幻小说里的情节,自然吓跑了绝大多数投资者。
△ 初创期的DeepMind并不被多数人理解
纪录片中,哈萨比斯生动地回忆起早期融资的窘境,他向投资人描绘着AI如何与大脑连接、为何时机已经成熟,对方却只关心一个非常世俗的问题:
你的产品是什么?你怎么赚钱?
这让他哭笑不得:
你难道没在听我讲什么吗?
幸运的是,在硅谷,总有愿意为疯狂梦想下注的人。
PayPal的联合创始人彼得·蒂尔成为了他们最早的天使投资人之一。随后,特斯拉的埃隆·马斯克也加入了投资行列。
△ 彼得·蒂尔(左)和埃隆·马斯克(右)先后为哈萨比斯投资
最终,这场豪赌吸引了科技巨头谷歌的关注。
2014年,谷歌在与Facebook的竞购中胜出,以4亿英镑的价格收购了DeepMind。这不仅是资本的胜利,更是对DeepMind愿景的最高认可。
△ 哈萨比斯帽子上的Noogler是谷歌内部对新入职员工的专属昵称
哈萨比斯强调,他们之所以选择出售,是因为“没有时间可以浪费”,谷歌能提供他们梦寐以求的“海量计算资源”,这将“极大地加速我们实现AGI的时间表”。
更重要的是,他们争取到了在伦敦独立运营的权利,可以专注于纯粹的研究,而不必为产品和商业化分心。
就这样,DeepMind有足够的资源集结了一批世界最顶尖的科学家,哈萨比斯口中的“AI曼哈顿计划”得以启动。
这群“梦想家”在伦敦的一个“秘密地点”开始了长达数年的“闭关修炼”。
纪录片中,早期员工回忆道,公司最初两年处于“完全隐身模式”,办公室地址保密,甚至没有网站。一位面试者紧张地表示,他来面试前特意给妻子发了地址,以防自己被绑架。
这支团队的背景、资源和使命,从一开始就注定了他们要做的,绝不是小打小闹,而是一场将深刻改变世界的思维游戏。
#02
从游戏厅到实验室:
独属AI的“思维游戏”
如何训练一个一无所知的“数字大脑”?
哈萨比斯给出的答案是:从游戏开始。
他认为,游戏是训练AI最完美的“健身房”,因为它们提供了一个有明确规则和目标的受控环境。
旅程始于最简单的雅达利游戏《乓》。这是一款乒乓球游戏,游戏中,玩家的目的就是在模拟乒乓球比赛中夺取高分以击败电脑玩家。
△ 雅达利游戏《乓》是一款模拟乒乓球比赛的极简风游戏
这种尝试初期并不顺利——AI连最基本的移动都学不会,团队一度陷入绝望。哈萨比斯甚至对谢恩・莱格说:
也许我们从根本上就错了,我们连《乓》都搞不定。
他们采用了一种名为“Q-learning”的强化学习方法,并将其与“深度学习”相结合,这在当时是一个创举。
AI代理被置于游戏环境中,它唯一的目标就是最大化得分,但它不知道规则,不知道如何控制球拍,一切都得从零学起。
就在团队濒临放弃的边缘,AI打回了第一个球。
从那一刻起,奇迹发生了。它开始得分,赢得第一局,三个月后,没有任何人类能再打败它。
这只是开始。
在游戏《打砖块》中,屏幕上方排列着八排砖块,玩家的目标是通过反复用球拍击打砖块来消除它们。
AI在玩了数百局后,自行发现了一个连人类顶尖玩家都未曾想到的最优策略——从侧面挖通一条隧道,让球在砖块后方自动反复反弹,高效地清除所有砖块。
△ AI在游戏《打砖块》中发挥出了创造性思维
这一刻,AI展现的不再是模仿,而是顿悟和创造力。
这个过程,对于所有内容创作者来说,都极具启发性:真正的智能,源于对规则的深度理解和探索,而非简单的复刻。
DeepMind的算法最终被证明具有通用性,能够学会在近50种不同的雅达利游戏中达到甚至超越人类水平。
随后,DeepMind将目光投向了人类智慧的试金石——围棋,这个“人类发明的最复杂的游戏”,其可能的变化数量比宇宙中的原子总数还要多。
他们开发的AlphaGo,通过“强化学习”与“深度学习”相结合,先是学习了10万局人类高手的棋谱,然后通过数百万次的自我博弈进行强化。
△ AI进行围棋自我对弈训练,通过海量计算探索最优策略
在2016年与世界冠军李世石的世纪对决中,AlphaGo下出了震惊世界的“第37手”。
职业解说员一致认为,没有任何人类棋手会选择这一步。AlphaGo自己的分析也显示,人类下出这一步的概率只有万分之一。
面对这步棋,李世石陷入长达15分钟的沉思,这在顶尖棋手对决中极为罕见。据现场报道,他甚至一度离开对局室冷静情绪。
这一“天外飞仙”式的招式,彻底颠覆了人类数千年来对围棋的认知,并最终帮助AlphaGo赢得了比赛。
△ 韩国围棋国手李在石最终败给了AlphaGo
纪录片中提到一个概念——“斯普特尼克时刻”。
1957年10月4日,苏联成功发射人类首颗人造卫星“斯普特尼克1号”。
当时正处于冷战时期,美国受到极大震动。为了扭转局面,美国后续成立了NASA,推进水星计划,加大科研与教育投入,进而开启了美苏持续20多年的太空竞赛。
△ 苏联成功发射人类首颗人造卫星“斯普特尼克1号”,改变了历史进程
此后,“斯普特尼克时刻”被用来形容某个国家、行业或群体,突然意识到自身在关键领域被竞争对手超越,由此产生强烈危机感与紧迫感,并促使其全面审视自身发展,进而通过加大投入、调整战略等方式奋起追赶的关键节点。
AlphaGo的胜利被誉为AI领域的“斯普特尼克时刻”。它向世界宣告,一个新时代已经到来。
但DeepMind并未止步。他们推出了更强大的AlphaZero,它完全抛弃了人类数据,从零开始,通过自我对弈进行学习。
纪录片展示了其惊人的学习速度:AlphaZero早上还只会随机乱走,到下午茶时间就达到了超人水平,到了晚饭时间,它已成为地球上最强的国际象棋“棋手”。它甚至发现了人类数百年都未曾探索过的全新攻击风格。
哈萨比斯兴奋地说:
这甚至激励我重新开始下棋了。
△ 哈萨比斯(右)本就是棋界神童出身,DeepMind开发的AI继承了他的天赋
游戏的终极目标是现实世界。DeepMind接着挑战了更为复杂的即时战略游戏《星际争霸2》。
与围棋不同,《星际争霸2》信息不完整,你无法看到对手的所有行动,决策是连续的,这更接近真实世界的复杂性。
他们开发的AlphaStar,最初连公司内部的业余玩家都打不过,但通过模仿人类玩家的“下一动作预测”和大规模的自我博弈,它迅速进化。
在与职业选手的对战中,AlphaStar展现了惊人的微操和战略大局观,最终以压倒性优势获胜。
△ AlphaStar强大到可以在《星际争霸2》中击败所有人类玩家
从雅达利游戏到围棋,再到《星际争霸2》,DeepMind训练的AI一步步从“学徒”进化为“宗师”,其学习和进化速度令人叹为观止,也为他们进军科学领域铺平了道路。
#03
破解生命密码:
“诺奖”是AI的起点不是终点
哈萨比斯的梦想始终是“AI辅助科学”。
DeepMind的下一个目标,是困扰了生物学界半个世纪的“蛋白质折叠问题”。
△ 蛋白质折叠问题是困扰科学界的重大难题,DeepMind决定挑战它
简单来说,蛋白质是生命的基石,它们的功能由其复杂的三维结构决定。预测蛋白质的结构,是理解生命运作、攻克疾病的关键。
然而,这个问题极其困难,正如哈萨比斯在剑桥的同学所说,这个问题“困扰了成千上万非常聪明的人”,但始终未能解决。
哈萨比斯坚信,这个问题需要AI帮助才能破解。为此,DeepMind组建了一支由生物学家和AI专家构成的“攻坚队”,开发了名为AlphaFold的系统。
△ AlphaFold重新定义了我们理解蛋白质结构的方法
他们的征途并非一帆风顺。在第一次参加被誉为“蛋白质折叠界奥运会”的CASP竞赛时,尽管他们取得了第一名,但预测的精准度远未达到能被生物学家实际应用的水平。
团队成员意识到,他们只是“在全世界都不擅长的问题上做到了世界最好”,离真正解决问题还差得很远。
这让团队中的一些人感到这是“一项愚蠢的差事”,哈萨比斯也开始反思:
也许我错了,也许这个问题对于AI目前的水平来说还是太难了。
△ 解决蛋白质折叠问题,可能是DeepMind面对过的最大挑战
但他们没有放弃。哈萨比斯决定“加倍下注”,组建了一支“蛋白质折叠突击队”,由约翰·江珀领导。他们重构了整个算法,将生物学领域的专业知识更深地融入AI模型中。
在经历了又一个两年的埋头苦干后,新一代的AlphaFold诞生了。在2020年的CASP14竞赛中,它取得了历史性的突破。
竞赛组织者约翰·莫尔特在发给团队的邮件中难掩激动:
我预计你们已经知道,你们团队在CASP14中表现惊人,无论相对于其他团队,还是在模型的绝对准确性上。恭喜你们,这真是杰出的工作。
AlphaFold的预测精准度达到了与实验室相媲美的水平,这意味着,这个困扰了科学界50年的难题,在很大程度上被解决了。
这一成就的意义是颠覆性的。2024年,哈萨比斯和江珀因此荣获诺贝尔化学奖。
△ 2024年诺贝尔化学奖得主(从左至右)大卫・贝克、戴米斯・哈萨比斯、约翰・江珀,前者因“计算蛋白质设计”而获奖,后两位因“蛋白质结构预测”而获奖
DeepMind的选择更为震撼——他们决定将预测出的全部2亿个已知蛋白质的结构数据,通过一个公开数据库向全世界免费开放。
△ DeepMind对蛋白质结构的预测已经开始造福人类
这相当于为全球的生物学家和药物研发人员提供了一份详尽的“生命地图”,极大地加速了从癌症到阿尔茨海默症等多种疾病的研究,以及疫苗和新药的开发。
正如纪录片中所说,这成为了“送给全人类的礼物”。
AlphaFold的成功,完美诠释了哈萨比斯的初心:在通往AGI的路上,创造出能造福人类的革命性技术。
影片结尾,哈萨比斯凝视着一个由铅笔搭建的脆弱平衡雕塑,AI告诉他,移动任何一根,整个结构都会崩塌。
哈萨比斯决定听取AI的建议:
那我最好别管它了,这可能是个好主意。
这似乎是一个隐喻:我们正处在一个由AI开启的、充满无限可能但又极其微妙的时刻。AI的发展已经越过了单纯模仿的阶段,开始进入与人类协同创造、共同探索未知的全新纪元。
我们正在见证的,或许不仅仅是工具的革新,而是一个新物种的诞生,一个将从根本上重塑科学、艺术乃至人类文明本身的“斯普特尼克时刻”。
纪录片中,哈萨比斯用这样一段话结尾。
通用人工智能即将到来,很明显下一代将生活在未来世界。那里的情况将截然不同,因为人工智能。
而你如果想负责任地管理它,每一刻都至关重要,这就是我一生都在等待的时刻。