DeepSeek“刷屏”硅谷:芯片管制反激发中国大模型创新力?
创始人
2025-01-27 01:22:24
0

《DeepSeek“刷屏”硅谷:芯片管制反激发中国大模型创新力?》

DeepSeek在硅谷引发关注如同点亮一颗新星。芯片管制这一举措本欲限制中国科技发展,然而却意外地成为激发中国大模型创新力的因素。一方面,管制促使中国企业向内挖掘潜力,在算法优化、数据高效利用等方面投入更多精力。企业不再单纯依赖高端芯片堆砌性能,而是探索算法的巧妙架构。另一方面,这激发了国内对自主芯片研发的热情,使得大模型发展与本土芯片的适配性研发加速。DeepSeek的出现或许就是这种被激发创新力的例证,它展现出中国在大模型领域的独特创造力和顽强生命力。


在过去的一周中,中国的人工智能大模型是硅谷乃至全世界科技人士热议的话题。而引爆这一讨论的是中国的人工智能初创公司深度求索(DeepSeek)。

该公司上周发布的推理大模型DeepSeek-R1因其可比肩OpenAI o1的性能、极低的服务价格,以及代码和模型架构的完全开源,震惊业界。

多位知名科技人士均对DeepSeek近期取得的成就表示赞叹。

AI科技初创公司Scale AI的创始人亚历山大·王(Alexandr Wang)称,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。

加州大学伯克利分校计算机科学教授伊恩·斯托伊卡(Ion Stoica)对第一财经记者表示,DeepSeek-R1和DeepSeek-V3已经表明,只需花费训练GPT、Gemini和 Claude等现有大模型的一小部分成本即可获得最先进的结果。他还表示在该校的大模型排行榜中,DeepSeek-R1在包括开源模型和专有模型的所有模型中排名第三。

更重要的是,这一成就是在美国对华芯片出口管制加强的背景下实现的。

“限制条件和资源匮乏往往会激发创新,这里的情况似乎就是如此。”斯托伊卡对第一财经记者表示。

DeepSeek为何“震惊”硅谷?

受到规模定律(Scaling Law,即计算规模越大、训练数据量越多,模型越智能)的影响,全球AI大模型的开发长期以来陷入了一场关于顶尖人才、先进算力和巨额投资的“军备竞赛”。

各大科技公司大量囤积芯片以确保充足的算力。市场调研公司Omdia的最新报告显示,微软是英伟达的第一大买家,购买了48.5万块英伟达旗舰产品Hopper芯片,占后者过去一年收入的20%。Meta排第二,去年购买了22.4万块GPU;而亚马逊和谷歌预计分别购买19.6万和16.9万颗Hopper芯片。

然而越来越多科学家开始对堆数据、堆算力这一“大力出奇迹”的做法产生怀疑时,中国量化交易公司幻方量化(High-Flyer)旗下的人工智能初创公司DeepSeek横空出世,以“四两拨千斤”的方式快速突进。

而为了训练模型,幻方量化在美国芯片出口限制之前获得了超过1万块英伟达GPU,尽管有说法称DeepSeek大约有5万颗H100芯片,但尚未得到公司官方证实。

早在去年12月,该公司推出的DeepSeek-V3通过优化模型架构和基础设施等方式,展现了极致性价比。从该团队正式发布的技术报告来看,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788M H800 GPU小时,其训练成本仅为557万美元,但该模型实现了与GPT-4o和Claude Sonnet 3.5(来自美国人工智能企业Anthropic)等顶尖模型相媲美的性能。

当时著名人工智能科学家卡帕西(Andrej Karpathy)就发文表示,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。

尽管尚不清楚最新发布的DeepSeek-R1的训练成本,但其在服务价格上,相较性能相当的OpenAI的o1也有明显优势。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),分别是OpenAI o1的2%和3.6%。

外界普遍认为,美国尖端芯片出口管制等限制并没有削弱中国的AI能力,反而似乎在推动DeepSeek等初创公司以优先考虑效率、资源池和协作的方式进行创新。

卡内基国际和平基金会的人工智能研究员马特·希恩(Matt Sheehan)表示:“美国的出口管制实际上将中国公司逼入了绝境,它们必须利用有限的计算资源提高效率。未来我们可能会看到大量与计算资源匮乏相关的整合。”

中欧国际工商学院决策科学与管理信息系统教授谭寅亮曾在斯坦福大学人工智能研究院和数字经济实验室担任访问学者,他对第一财经记者表示:“对华的芯片管制从未停止,而中国的企业创新也没有因此停滞。Deepseek团队的成功很好地印证了这一点。”

“开源的胜利”

除了极致性价比,让DeepSeek的大模型脱颖而出的是其代码和训练方法的完全开源。

开源即将模型的源代码和技术细节公开,并允许用户根据其自身需要对模型进行任意使用和修改,这被认为有提高技术透明度,让用户更容易、更便宜地使用,惠及开发者降低迭代成本,防止垄断等好处。而闭源模型的源代码和技术细节则完全被其提供商控制,不对外进行公开,也不允许用户对这些模型本身进行更改。

目前,DeepSeek-R1已经一跃成为开源社区Hugging Face上下载量最高的大模型,下载量达10.9万次,这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的AI开发。DeepSeek的服务器也于26日出现了局部服务波动。这一问题在数分钟内得到解决,或与新模型发布后的访问量激增有关。

上海交通大学副教授、生成式人工智能研究组负责人刘鹏飞对第一财经记者表示,DeepSeek-V3和DeepSeek-R1的发布对高校研究者是一个利好,因为公开了技术细节后让整个过程更加透明,也使得学术界的研究者可以进入并发现技术栈中可以优化的部分,定义新的问题。

DeepSeek创始人梁文锋在接受媒体采访时也表示:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”

梁文锋认为:“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”

根据中国信息通信研究院去年发布的白皮书,全球人工智能大型语言模型数量已达 1328个,其中36%来自中国。这使中国成为仅次于美国的第二大人工智能技术贡献者。阿里云已发布100多个新的开源AI模型,支持29种语言,并满足各种应用需求,包括编码和数学。同样,中国的Minimax和01.AI(零一万物)等初创公司也开源了它们的模型。

Meta首席人工智能科学家杨立昆(Yann LeCun)也在社交媒体表示,DeepSeek成功的最大收获不是来自中国竞争对手的加剧威胁,而是保持人工智能模型开源的价值,以便任何人都能受益。

“他们有了新的想法,并在其他人的工作基础上加以实现。由于他们的工作成果已发表并开源,因此每个人都可以从中受益。”杨立昆表示,“这就是开放研究和开源的力量。”

中美科技差异缩小

随着中国公司陆续发布兼具性能与价格优势甚至开源的大模型,中美在人工智能上的差距正在缩小。斯托伊卡表示,“我认为这一趋势已经非常明显了。根据LLM Arena的结果,在过去的一年里,中国的开源模型从垫底者一跃成为排行榜上的佼佼者,至少在Meta发布其新的Llama模型之前是这样。”

很多反馈显示,DeepSeek的动作让Meta的生成式AI团队“陷入恐慌”。Meta CEO扎克伯格宣布加速研发Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚GPU以“确保2025年Meta AI成为全球领先模型”。

不过,多名接受第一财经记者采访的专家表示,仍需要关注中国的人工智能实现“从0到1”的能力。

以DeepSeek-V3为例,根据其技术报告,该模型的正式训练成本约为558万美元,但这一数据并不包括架构、算法、数据相关的前期研究和消融实验的成本。而对于大模型训练来说,尽管无效路径和探索会浪费大量算力,但没有这种“浪费”也难以取得最后的突破。

刘鹏飞表示,目前看来DeepSeek的大模型起到了加速创新的作用,但这种创新目前只在对从1到10的“复现”类工作得到验证。

“中国的复现是很快的。” 刘鹏飞表示“复现”的难度低于做“新发现”级别的难度。未来中国的人工智能研究者需要更加关注从0到1的工作。

也如清华大学计算机系长聘副教授刘知远所说:“AGI新技术还在加速演进,未来发展路径还不明确。接下来如何在迷雾中开拓新路,才是更大的挑战。”

谭寅亮也对第一财经表示,中国跟美国目前在人工智能上的差距,在最前沿大模型上,存在着6个月到9个月的差距,但多种大模型之间的良性竞争,能更好地促进人工智能在全世界的使用。

相关内容

智元机器人拟“入主”上纬新...
7月8日晚,上纬新材发布公告称,智元机器人拟通过公司及核心团队共同...
2025-07-09 08:40:22
两岸足球小将在榕以球会友
在榕城的绿茵场上,两岸足球小将们以球会友,展现出别样的风采。他们身...
2025-07-09 08:39:16
福州市创新创业大赛复赛名单...
近日,备受瞩目的福州市创新创业大赛复赛名单正式揭晓,令人振奋的是,...
2025-07-09 08:38:34
“中国体育彩票杯”中国·嘉...
7月5日至6日, “中国体育彩票杯”中国・嘉峪关第十六届国际铁人三...
2025-07-09 08:37:20
引入无人机智能巡查系统 罗...
在罗源的矿山监管领域,如今迎来了智慧“千里眼”——无人机智能巡查系...
2025-07-09 08:36:30
原创 ...
众所周知,美国的地理位置优越,大多数地区处于亚热带以及温带季风气候...
2025-07-09 08:34:11
原创 ...
引言 邓小平生前的好战友不多,除了周恩来、刘伯承之外,当之无愧的就...
2025-07-09 08:34:00
原创 ...
长枪是最主要的冷战兵器之一,综合威力大,是“十八般武器”之一,“四...
2025-07-09 08:33:39
原创 ...
在1949年爆发的金门战役中,我军遭遇了惨败,九千多人都牺牲在了战...
2025-07-09 08:33:39

热门资讯

国安比赛日Vlog:主场2-1... 国安比赛日Vlog:主场2-1逆转玉昆继续领跑
官方回应“自来水发黄”:与制水... 近期,部分地区居民反映自来水发黄的问题。官方回应称,此现象与制水工艺调整有关。在制水过程中,为提升水...
从被动分析到主动决策,Data... “Data Agent是“套壳大模型”还是数据变革“新范式”? 在当今数智化浪潮席卷全球之际,企业每...
原创 如... 东亚杯果然跟大家预期一样,打韩国输球, 7月12日打日本的比赛,十有八九也是输球的,大概率也只能在中...
拟发债60亿元 智飞生物如何走... 中国商报(记者 马嘉)重庆智飞生物制品股份有限公司(以下简称智飞生物)近日宣布,公司董事会已通过发行...
岗位重叠与职责空白并存,组织规... 岗位重叠与职责空白:组织管理的“暗礁” 在组织管理的广阔海域中,岗位重叠与职责空白犹如潜藏的暗礁,时...
游戏业如何破解维权难题?米哈游... 中国游戏产业规模日益庞大,国际竞争力日趋增强。据统计,2025年第一季度中国游戏市场收入857.04...
A股IPO低位运行,券商投行如... 2025年上半年,A股新股发行规模约为328亿元,同比小幅增长13%,IPO持续低位运行态势,如何摆...
内部矛盾公开 劳塔罗炮轰队友:... 内部矛盾公开 劳塔罗炮轰队友:不想踢,就给我走
休赛期苦练!齐尔克泽社媒发布个... 休赛期苦练!齐尔克泽社媒发布个人训练视频