清华团队突破算力难题:4090显卡单枪匹马就能跑“满血版”DeepSeek-R1!有用户称整套方案成本不到7万元,直降95%以上
创始人
2025-02-16 00:20:44
0

随着大规模语言模型(LLMs)的不断发展,模型规模和复杂性急剧提升,其部署和推理常常需要巨大的计算资源,这对个人研究者和小型团队带来了挑战。

2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

KTransformers通过优化本地机器上的LLM部署,帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段,提升了模型的计算效率,并具备处理长上下文序列的能力。

KTransformers的更新发布后,不少开发者也纷纷用自己的设备进行测试。他们惊喜地发现,本地运行完全没有问题,甚至显存消耗比github里的技术文档中提到的显存消耗还要少,实际内存占用约380G,显存占用约14G。

另外,有用户对方案成本进行分项分析后称,只要不到7万元就能实现R1模型的本地运行,与A100/H100服务器动辄200万元的价格相比,便宜了95%以上。

清华团队突破算力难题:24G显存即可运行R1和V3的671B“满血版”

之前,671B参数的MoE架构大模型DeepSeek-R1经常出现推理服务器高负荷宕机的现象,而如果选择其他云服务商提供的专属版云服务器则需按GPU小时计费。这一高昂成本让中小团队无力承担,而市面上的“本地部署”方案多为参数量大幅缩水的蒸馏版。

但KTransformers开源项目近期的更新,成功打破了大模型推理算力门槛:支持24G显存在本地运行DeepSeek-R1、V3的671B“满血版”。

早在DeepSeek-V2时代,这一项目就因“专家卸载”技术出名了,因为它支持236B参数的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到十分之一

KTransformers开源项目重点关注的就是在资源有限的情况下进行大模型的本地部署。一名Ktransformers开发团队成员表示:“项目在创始之初就已经讨论过项目的场景和目标,我们所针对的是中小型用户的场景,用领域的话讲,就是低并发+超低显存的场景。而显存目前的成本已经和CPU的内存不是一个数量级了,对于中小用户内存可能完全不缺,但是找一个显存很大的显卡却很难。”

图片来源:知乎

KTransformers的原理大致为将参数较少、计算比较复杂的MLA注意力放在GPU上进行计算,而参数大的、计算比较轻松的FNN(MOE)则放到CPU上去计算。

MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。因此,MoE架构需要大量的存储空间,但并不需要很多的计算资源。在这样的情况下,同样使用4bit量化,只需要一个4090 GPU就可以满足这个参数需求。

此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合英特尔的AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍对于需要处理上万级Token上下文的长序列任务来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。

用户:成本相比A100/H100服务器可直降95%以上

KTransformers的更新发布后,不少开发者也纷纷在自己的设备上进行测试。他们惊喜地发现,本地运行完全没有问题,显存消耗甚至比github里的技术文档中提到的还要少,实际内存占用约380G,显存占用约14G。

图片来源:哔哩哔哩

有B站up主实测发现,本地部署的速度可以达到约6-8 tokens/s,与硅基流动免费版速度差不多(但硅基流动有上下文关联数、输出数限制等因素)。

还有用户规划出了这套方案的成本:

CPU:Gold 6454S 两颗价格1w4左右(QS版)

主板:技嘉ms73 价格6500元以内(双路主板一共16个DDR5 RDIMM接口)

内存:单根64G的RDIMM DDR5服务器内存要1800元总共1T 需要3w元左右

显卡:低档4060Ti 16G,大概3999元。更加建议4090 24G,因为可以增加上下文长度。

该用户总结称,整体成本7万元不到,相比于A100/H100服务器动辄200万元的价格,便宜了95%以上。就算是租用服务器每小时也得花费数千元。

当然,这一本地方案还是有着诸多的限制,比如推理速度并不能和高价的服务器成本相提并论,并且只能给单人服务,而服务器可以同时满足几十个用户的需求。目前整体方案也依赖于英特尔的AMX指令集,其他品牌的CPU暂时还无法进行这些操作。并且这一方案主要是针对于DeepSeek的MOE模型,其他主流模型的运行可能并不理想。

有用户认为,短期来看,KTransformers可能刺激消费级显卡(如4090)的需求,尤其是高显存型号。但内存涨价的可能性较低,因为其核心创新在于优化显存利用率,而非直接增加内存消耗。但对于英伟达的影响并不会太大,因为这一技术归根结底还是对于现有资源的优化而非颠覆硬件需求

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

每日经济新闻

相关内容

上海建成“千园之城”,公园...
截至目前,上海各类公园达1013座,其中城市公园522座、口袋公园...
2025-08-29 08:52:08
这个暑期,聪明的旅游商家都...
流量的新大陆 01 这个暑期,小红书上 “毕业旅行” 的风刮得格外...
2025-08-29 08:51:21
云南腾冲的秋日:银杏村、温...
秋日的云南腾冲,宛如一幅色彩斑斓的画卷,银杏村、温泉与火山地质公园...
2025-08-29 08:50:55
原创 ...
每当提起欧洲的超级大都市时,人们首先总会想到的是巴黎的浪漫铁塔、伦...
2025-08-29 08:50:32
影视取景地成暑期旅游新爆点
伴随全国大中小学陆续开学,为期两个月的暑期旅游季正式收官。飞猪、携...
2025-08-29 08:49:32
甘肃旅游路线指南,去甘南6...
家人们,我相信很多人都跟我一样,心里一直藏着一个旅游梦,渴望去探索...
2025-08-29 08:49:02
2025甘肃旅游攻略必去景...
我一直对甘肃甘南那片神秘而美丽的土地充满了向往,那里有广袤无垠的草...
2025-08-29 08:48:19
甘肃旅游6天5晚报团详细费...
宝子们,甘肃这片神奇的土地,就像一幅徐徐展开的壮丽画卷,既有“大漠...
2025-08-29 08:47:57
福州抗战档案史料展今日在三...
为纪念中国人民抗日战争暨世界反法西斯战争胜利80周年,由福州市档案...
2025-08-29 08:47:52

热门资讯

原创 8... 围棋甲级联赛第六轮比赛最近结束啦。上赛季亚军深圳龙华队以1:3输给了杭州苏泊尔队,在16支参赛队伍里...
原创 1... 最近,16岁少年何代谦成了高尔夫球界的一匹黑马。在2025广东巡回赛顺德站里,他表现特别出色,两轮成...
个人养老金理财产品再“上新” ... 第九批个人养老金理财产品名单日前公布,我国的个人养老金理财产品再扩容,老百姓的个人养老金账户,有了更...
象山隧道将于8月31日零时开放...   记者从市住建局获悉,8月31日零时,象山隧道将全面开放通行。
连续8年写入联大决议 国际社会... 29日上午,中国人民抗日战争暨世界反法西斯战争胜利80周年纪念活动新闻中心举办第二场记者招待会,介绍...
西甲次轮净比赛时间:10场场均... 西甲第二轮比赛全部结束,本轮联赛各场次净比赛时间数据出炉,本轮西甲净比赛时间56分43秒,赛季前两轮...
当围棋国手遇上高粱归仓…… 国手对弈入酒庄,棋心沉醉谷盈仓;仁怀佳酿风前韵,赤壤高粱梦里香…… 8月27日傍晚,参加2025全国...
原创 从... 李湘生入展作品 近日,书法报社·书道轩精心筹备并举办了“铁血军魂”庆祝八一建军节书画展活动。各地送展...
我国科学家在6G领域取得新突破 我国科学家近日成功研制出超宽带光电融合集成系统,首次实现全频段、灵活可调谐的高速无线通信,有望为未来...
公司欠债无钱还能否起诉股东的股... 公司欠债无钱还能否起诉股东的股东?法院:公司人格独立受保护 债权人追责“纵向穿透”有上限近日,鼓楼区...