编者按:轰轰烈烈的AI革命,带飞了内存的价格,进而引发了更大的市场缺口,在这场革命红中,CPU、手机甚至家电都被波及和影响。有人说,内存毁掉了一切,也有人说,不计成本地投入AI才是罪魁祸首。但无论如何,技术一定会向前发展,AI的大趋势一定势不可挡。但问题是,未来内存技术该走向何方?SK海力士无疑是最近讨论度最高的企业之一,今天我们就来通过SK海力士的一篇技术文章,一探AI革命与内存半导体的未来。
人工智能(AI)正处于从静态推理向持续学习范式转变的关键节点。当前主流大语言模型(LLMs)面临 “顺行性遗忘症” 的根本限制:无法在训练后形成长期记忆,每次交互都需重新读取全部上下文,导致算力与内存带宽的极端浪费。为突破这一瓶颈,谷歌等巨头正推动架构革新 —— 其泰坦架构(Titans)将注意力机制与神经长期记忆模块结合,有望终结静态推理时代;而 SK 海力士等存储厂商则在硬件层面押注存内计算(PIM)与高带宽内存(HBM),通过 “计算靠近数据” 的范式重构内存半导体产业。2026 年被业内视为这一转变的 “产业结构成型元年”:持续学习的软件架构将倒逼硬件基础设施的根本性演进,内存半导体将取代单纯的算力,成为 AI 时代的核心决胜点。
引言:人工智能的 “健忘天才” 困境
想象一位天赋异禀的助手 —— 能精准完成任何复杂任务,却每天早上都会彻底遗忘前一天的所有经历:你的名字、公司的业务、昨天刚同步的项目细节,甚至是半小时前的对话内容。每一次交流,都必须从零开始重新交代所有背景信息。这不是科幻小说的设定,而是韩国科学技术院(KAIST)半导体器件研究员金柱灿(Kim Juchan)对当前主流 AI 系统的精准比喻。
顺行性遗忘症的临床隐喻
金柱灿将 ChatGPT、Gemini、Claude 等大语言模型(LLMs)的核心缺陷定义为 “顺行性遗忘症”—— 这一医学术语原本描述的是大脑无法形成新长期记忆的症状,恰好击中了当前 AI 的本质局限:这些模型能完整调用训练阶段吸收的海量人类知识 —— 那是谷歌、Meta 等科技巨头耗费数千亿美元、遍历全球数据档案才构建的智能底座,但在训练结束、权重冻结的瞬间,它们就失去了积累新经验的能力。
为了弥补这一缺陷,用户与 LLM 的每一轮对话,都需要将此前的全部交互历史作为 “上下文前缀” 重新输入模型。这就好比每次想从图书馆借一本书,都必须先复印整座图书馆的所有藏书 —— 不仅耗时耗力,更会随着对话长度的增加,让内存带宽的负担呈指数级膨胀。这种 “重放全部历史” 的机制,正是当前 AI 推理成本居高不下的核心原因:即使是处理简单的多轮对话,模型也需要反复读取远超任务本身所需的数据。
静态推理的终结与持续学习的兴起
“静态推理”—— 即预训练模型权重保持冻结、仅通过前向传播处理输入的范式 —— 曾是 AI 产业的主流标准。但金柱灿指出,这种模式的效率已经触达天花板:传统微调需要在特定数据集上重新训练模型,不仅要消耗数周时间和数百万美元的算力,还可能导致 “灾难性遗忘”—— 模型在适应新任务时,会丢失原有知识的精度。
人类大脑的运作方式提供了关键参考:当你不小心碰到滚烫的水壶,运动皮层的突触会在几毫秒内完成强度校准,将 “高温 = 危险” 的信息永久编码进长期记忆 —— 整个过程无需重写大脑的基本架构,也不会遗忘之前学会的 “火会烫手” 这类常识。受此启发,谷歌等巨头正将研发重点转向 “持续学习”:这是一种多速度、多层级的更新范式,模型能从新数据中逐步学习,同时通过动态权重保护机制保留原有知识。
2026 年被业内广泛视为这一范式转移的关键节点:持续学习将模糊训练与推理的边界,让 AI 系统在部署后仍能实时进化。这不仅是软件架构的革命,更是对支撑 AI 的硬件基础设施 —— 尤其是内存半导体 —— 的终极考验。
架构革命:谷歌泰坦与持续学习的未来
2025 年 1 月,在 Transformer 架构问世整整 8 年后,谷歌 DeepMind 团队在 arXiv 上提交了题为《Titans: 突破 Transformer 上下文瓶颈的神经长期记忆架构》的论文,正式宣告了新一代 AI 架构的诞生 —— 这不仅是 Transformer 的继任者,更是为解决 LLMs “健忘症” 量身打造的方案。
泰坦架构的核心设计
泰坦架构的核心创新,是将测试时计算(Test-time Computing)从 “推理辅助工具” 升级为 “记忆管理引擎”—— 这一思路恰好呼应了英伟达此前提出的 “大模型第三缩放定律”:测试时的计算效率,将成为模型性能的关键决定因素。该架构由两大核心模块构成:
注意力机制:负责处理短上下文的实时交互 —— 比如理解用户当前的提问意图,或是总结最近的对话内容,这部分延续了 Transformer 的经典设计,但针对低延迟场景做了轻量化优化;
神经长期记忆模块:这是泰坦架构的灵魂所在。它会将模型在推理过程中遇到的 “意外输入”—— 即超出训练数据分布的新颖信息 —— 主动编码为结构化记忆,而非像传统模型那样直接丢弃。
论文一作 Ali Behrouz 在接受采访时特别强调了这种主动记忆机制的效率:“传统模型要么把所有信息塞进上下文窗口,要么什么都记不住。泰坦的记忆模块会像人类的海马体一样,先对新信息做优先级筛选 —— 只有真正有价值的‘意外’,才会被写入长期记忆。” 这种设计让模型能在不扩展上下文窗口的前提下,拥有了 “长期记忆” 的能力。
测试时训练(TTT)的范式转移
泰坦架构的革命性在于,它将 “推理” 从单纯的 “结果输出”,转变为了 “持续学习的循环”—— 这就是谷歌定义的 “测试时训练(Test-time Training,TTT)”。在传统模型中,推理是单向的 “读取 - 计算 - 输出” 过程;但在泰坦架构中,推理过程会实时生成 “训练信号”:
当模型检测到输入中的 “意外” 信息 —— 比如用户提到的 2026 年某款未在训练数据中出现的新芯片 —— 它会先将这一信息编码为 “记忆片段”,存入神经长期记忆模块;随后触发细粒度的权重更新 —— 注意,这种更新并非全模型重训,而是仅针对与该记忆相关的局部权重,从而避免了灾难性遗忘的风险。
这一机制直接解决了传统 LLMs 的 “健忘症” 痛点:模型不再需要每次重放全部对话历史,而是可以直接调用已存储的长期记忆。Ali Behrouz用一个形象的比喻解释道:“传统模型就像每次考试都要重新学习整本书的学生;而泰坦则是带着笔记去考试的学生 —— 它能在考试过程中不断补充新笔记,下次遇到类似问题时,直接调用这些笔记即可。”
硬件 Implications
持续学习的范式,对 AI 硬件提出了与传统静态推理完全不同的要求:传统 GPU + 高带宽内存(HBM)的架构,是围绕 “以读为主” 的访问模式设计的 ——HBM 负责将预训练权重高速传输给 GPU,GPU 完成计算后再将结果写回HBM,整个流程的核心是 “数据搬运”。但在泰坦架构的持续学习模式下,模型需要频繁对内存中的权重进行 “读-修改-写(RMW)” 操作:每一次记忆更新,都需要先读取当前权重,计算新的权重增量,再将修改后的权重写回内存。
这种模式下,数据搬运的带宽需求不再是核心瓶颈——真正的瓶颈是内存本身的读写效率。谷歌DeepMind在论文中指出,即使将HBM的带宽提升10倍,也无法满足持续学习的RMW操作需求:因为每次RMW操作都需要内存与计算单元之间的往返通信,而传统架构的“冯・诺依曼瓶颈” 会让这种往返的延迟呈指数级上升。要支撑泰坦架构的落地,必须彻底打破“计算与内存分离”的传统设计,让计算单元直接嵌入内存芯片——这正是存内计算(PIM)技术的核心逻辑。
内存半导体的角色:从瓶颈到核心
在 AI 产业的上半场,“算力” 是绝对的关键词 —— 英伟达的 GPU 几乎垄断了全球 AI 训练市场,“算力即正义” 成为行业共识。但随着持续学习范式的兴起,产业的焦点正在向 “存力” 转移:内存半导体不再是被动的数据存储介质,而是成为了决定 AI 系统性能上限的核心基础设施。
数据移动瓶颈
传统计算架构的 “冯・诺依曼瓶颈”—— 即计算单元与内存单元分离导致的数据搬运延迟 —— 在 AI 时代被放大到了极致。SK 海力士的内部研究报告显示,在传统 GPU+HBM 架构中,数据在内存与 GPU 之间的移动所消耗的能量,占 AI 推理总能耗的 60% 以上;而在持续学习场景中,这一比例更是超过 80%—— 大部分算力和能源,都被浪费在了 “数据搬运” 的环节,而非真正的计算上。
这一问题的根源,在于传统架构的核心逻辑是 “计算靠近 CPU/GPU”,而非 “计算靠近数据”。为了突破这一瓶颈,存内计算(Processing-in-Memory,PIM)技术应运而生:它将计算单元直接嵌入内存芯片内部,让数据无需离开内存就能完成运算。这不仅能将数据搬运的能耗降低 90% 以上,更能将持续学习所需的 RMW 操作延迟压缩到微秒级 —— 这正是支撑泰坦等持续学习架构的关键硬件基础。
存内计算(PIM)的兴起
存内计算(PIM)并非全新概念 —— 早在 20 世纪 90 年代,IBM 等厂商就曾提出过类似的技术设想,但受限于当时的半导体工艺和应用需求,一直未能实现产业化。直到 AI 持续学习的需求出现,PIM 才真正成为产业界的焦点。
SK 海力士是全球最早将 PIM 技术落地的存储厂商之一:2022 年,该公司在国际固态电路会议(ISSCC)上首次展示了基于 GDDR6 接口的 PIM 芯片 ——GDDR6-AiM 的样本,这是全球首款能在内存内部完成 AI 计算的 DRAM 产品。2025 年 CES 上,SK 海力士进一步推出了升级后的 AiMX 系列 PIM 芯片,并现场演示了其在持续学习场景中的性能:在处理相同的记忆更新任务时,AiMX 的能效是传统 HBM3 的 12 倍,延迟仅为后者的 1/15。
AiM/AiMX 的核心优势,在于它能在内存芯片内部直接处理持续学习所需的 RMW 操作:模型的权重更新不再需要从 HBM 传输到 GPU,而是在内存内部完成计算和存储 —— 这不仅消除了数据搬运的延迟,更让持续学习的实时性成为可能。SK 海力士在技术白皮书里强调:“AiM 不是对传统内存的升级,而是对计算架构的重构 —— 它让内存从‘数据仓库’变成了‘数据处理中心’。”
SK 海力士的战略押注
面对持续学习带来的产业机遇,SK 海力士正在推进人类半导体产业历史上规模最大的单一投资计划之一:在韩国京畿道龙仁市的半导体集群,该公司计划投入约 4000 亿美元(600 万亿韩元)建设新的晶圆厂与封装基地。这一投资的核心逻辑,是将龙仁打造为全球 AI 内存的核心供应枢纽 —— 从最先进的 HBM4E、HBM5 存储芯片,到 AiM/AiMX 存内计算产品,再到配套的先进封装工艺,所有环节都将在这个集群内完成。
这一投资的紧迫性,来自于 AI 产业对内存的爆炸式需求:截至 2026 年 3 月,数据中心消耗的内存芯片已占全球总产能的 70%—— 这一比例在 2020 年还仅为 25%;而 SK 海力士董事长崔泰源在 2026 年 3 月的投资者大会上更是公开预警:“全球内存芯片的结构性短缺,可能会持续到 2030 年。”
除了龙仁的超级集群,SK 海力士还在韩国清州市建设一座总投资约 130 亿美元(19 万亿韩元)的先进封装与测试(P&T)晶圆厂。该工厂将专注于 HBM 和 PIM 芯片的封装工艺 —— 尤其是台积电的 CoWoS(
Chip-on-Wafer-on-Substrate)封装技术,这是实现存内计算芯片与逻辑控制单元高密度集成的关键工艺。SK 海力士的目标,是在 2027 年初完成龙仁一期工程和清州 P&T 工厂的投产,从而在 AI 数据中心和边缘设备的内存需求爆发期,具备全栈式的供应能力。
6G 与边缘 AI 的交汇点
2026 年,AI 与 6G 的融合已从实验室概念,进入工程化落地的关键阶段。如果说数据中心是持续学习 AI 的 “大脑”,那么 6G 基站就是它的 “神经末梢”—— 边缘 AI 的实时响应需求,正在倒逼内存半导体的又一次创新:基站不仅要提供高速通信,更要成为能支持持续学习的边缘计算节点。
基站 AI 加速器的双重用途挑战
2025 年,英伟达加入 AI 无线接入网络(AI-RAN)联盟 —— 这一动作被业界视为 AI 从数据中心向电信基础设施渗透的明确信号。全球现有约 1200 万个蜂窝基站,如果每个基站都部署 AI 加速器,将形成一个规模远超数据中心的边缘 AI 市场:据 GSMA 预测,到 2030 年,边缘 AI 的算力需求将占全球 AI 总算力的 40% 以上。
但这一市场的落地,面临着一个现实的商业挑战:电信运营商的基站设备,大部分时间处于低负载状态 —— 尤其是在夜间非高峰时段,设备利用率可能不足 20%。为了降低成本,运营商普遍希望基站的 AI 加速器能具备 “双重用途”:在高峰时段处理实时网络流量的 AI 优化任务,在非高峰时段则承接多接入边缘计算(MEC)和生成式 AI 推理的商业订单 —— 比如为本地企业提供 AI 图像识别、实时翻译等服务。
这一需求的核心矛盾,在于 “实时网络任务” 与 “商业服务任务” 的资源优先级冲突:自动驾驶汽车、工业机器人等场景的通信需求,对延迟的要求是毫秒级甚至微秒级 —— 哪怕延迟增加 10 毫秒,都可能导致严重的安全事故;而 MEC 和生成式 AI 推理任务,对延迟的容忍度更高,但对算力的需求更大。如果两者共享同一套 AI 加速器资源,当商业任务占用过多算力时,实时网络任务的延迟会急剧上升,甚至引发服务中断。
内存虚拟化与隔离
为了解决这一矛盾,6G 基站的 AI 加速器必须具备 “内存隔离与虚拟化” 的能力 —— 即在单一物理节点内,将 “电信专用资源” 与 “服务层商业资源” 进行严格的硬件级隔离。这种隔离不是软件层面的逻辑分区,而是硬件层面的内存地址空间、带宽资源和计算单元的完全隔离:即使服务层任务的负载达到峰值,也无法占用电信专用资源的哪怕 1% 带宽。
韩国电信技术研究院的金民宇研究员警告称,这是传统内存架构根本无法应对的挑战:传统 HBM 和 DRAM 的资源调度是基于软件的,调度延迟通常在毫秒级,无法满足 6G 基站微秒级的隔离需求。如果不能解决这一问题,6G 的边缘 AI 愿景将无法落地 —— 因为没有运营商愿意为了商业收益,牺牲核心网络的稳定性。
2026 年正是这一技术标准的关键博弈期:3GPP 的 6G 标准化工作组已将 “内存虚拟化与隔离” 列为核心议题,SK 海力士等存储厂商也在推进专用的硬件级内存隔离技术 —— 比如在 AiM 芯片中内置硬件防火墙,能在纳秒级完成内存资源的切换,确保电信专用资源的绝对优先级。
产业结构调整与地缘政治
AI 内存的需求爆发,正在引发全球半导体产业的结构性重组 —— 不仅是技术路线的重构,更是产能布局和地缘政治格局的重塑。2026 年,这一重组已进入加速阶段:全球存储厂商的产能扩张计划,几乎完全围绕 AI 内存展开;而先进封装与洁净室的技术门槛,正在成为行业的 “护城河”。
资本支出的激增
全球存储厂商的资本支出,正在经历历史性的爆发 —— 这不是周期性的产能扩张,而是为了适配 AI 时代的结构性需求。SK 海力士的龙仁半导体集群投资计划,规模约合 4000 亿美元(600 万亿韩元),是人类半导体产业历史上规模最大的单一投资项目之一 —— 这一投资的 80% 将用于建设能生产 HBM4E、HBM5 和 AiM 芯片的先进晶圆厂,剩余 20% 则用于配套的研发中心和员工宿舍等基础设施。
除了龙仁集群,SK 海力士还在韩国清州建设一座投资约 130 亿美元(19 万亿韩元)的先进封装与测试(P&T)晶圆厂 —— 该工厂将专注于 HBM 和 PIM 芯片的 CoWoS 封装工艺,预计 2027 年初投产。这一布局的核心逻辑,是在 AI 数据中心加速扩张、边缘设备应用持续增长的节点,为客户提供从芯片设计到封装测试的全栈 AI 内存解决方案。
这种大规模的资本投入,正在重新定义半导体产业的竞争门槛:只有能承担千亿级美元投资的企业,才能在 AI 内存领域占据一席之地。美光科技的 CEO Sanjay Mehrotra在 2026 年 CES 上公开表示:“未来 5 年,存储产业的竞争将不再是技术的竞争,而是资本实力的竞争 —— 只有那些能持续投入千亿级美元的企业,才能存活下来。”
洁净室与先进封装的门槛
随着 AI 内存技术的演进,半导体制造的门槛正在从 “晶圆制造” 向 “先进封装” 和 “洁净室建设” 转移 —— 这是因为 AI 内存芯片的集成度,已经远超传统逻辑芯片:HBM4 需要将 16 层甚至 32 层 DRAM 芯片垂直堆叠,而 AiM 芯片则需要将计算单元与存储单元在纳米级精度上集成,这对封装工艺和生产环境的要求,达到了前所未有的高度。
2019 年建造的半导体洁净室,与 2026 年建造的洁净室,在技术标准上已形成代际差距:2019 年的洁净室,每立方米空气中直径≥0.1 微米的颗粒数不超过 10 颗;而 2026 年的洁净室,这一标准被严格到了每立方米不超过 1 颗 —— 这相当于在一个足球场的空间里,只能有 1 颗尘埃。此外,工艺缩放和制造设备密度的增加,也大幅推高了洁净室的建设成本:2026 年,一座能生产 HBM4 的洁净室,单位面积的建设成本是 2019 年的 3 倍以上。
先进封装的重要性,甚至已经超过了晶圆制造本身:HBM4 芯片的性能,70% 取决于封装工艺 —— 比如 SK 海力士自研的 MR-MUF(Mass Reflow Molded Underfill)技术,通过将单颗 DRAM 晶圆减薄至仅 30 微米,并在一次回流焊过程中完成 16 层芯片的垂直互连,既提升了集成密度,又增强了结构稳定性。这种技术的门槛极高,目前全球只有 SK 海力士、三星和台积电等少数企业掌握。
供应链重组
AI 内存的需求爆发,正在引发全球半导体供应链的深刻重组 —— 这一重组的核心逻辑,是 “AI 内存生态的垂直整合”:存储厂商不再是孤立的芯片供应商,而是需要与晶圆代工厂、设备厂商和 AI 巨头深度绑定,才能满足持续学习架构的复杂需求。
最具代表性的案例,是 SK 海力士与台积电的深度联盟:鉴于 HBM4 的基础裸片需要采用 12nmFFC 及 N5/N3 等先进逻辑工艺,以集成更多的内存控制逻辑,SK 海力士选择将其存储技术与台积电的 CoWoS 封装工艺及逻辑制程进行深度耦合 —— 台积电负责提供 HBM4 裸片的逻辑电路制造,SK 海力士负责存储单元的设计和堆叠,双方共同完成封装测试。这种合作模式,打破了传统存储厂商 “自研自封” 的模式,也让台积电成为了 AI 内存供应链中不可或缺的一环。
英伟达与 SK 海力士的合作,同样体现了这种整合趋势:2025 年 10 月,英伟达与 SK 集团宣布扩大合作,SK 海力士将为英伟达的下一代 GPU 提供定制化的 HBM4 和 AiM 芯片 —— 这种定制化的内存芯片,能完美适配英伟达 GPU 的持续学习计算需求,进一步巩固了双方在 AI 硬件领域的主导地位。
市场动态与价格趋势
2026 年,全球 AI 内存市场的供需失衡,已成为行业的共识 —— 这种失衡不是周期性的,而是结构性的。SK 海力士董事长崔泰源在 2026 年 3 月的投资者大会上公开预警:“全球内存芯片的短缺,可能会持续到 2030 年。” 而业内更普遍的判断是,高带宽内存(HBM)的紧缺局面,将至少延续至 2028 年 —— 因为 HBM 的生产周期长达 18 个月,而全球 AI 数据中心的需求增长速度,是产能扩张速度的 3 倍以上。
这种供需失衡,直接推动了 SK 海力士等存储巨头的业绩爆发:2026 年第一季度,SK 海力士的营收达到 2429 亿韩元(约合 1.7 亿美元),营业利润率飙升至 79%—— 这是全球半导体产业历史上的最高利润率之一。其市值也在一年间增长超 9 倍,突破 9000 亿美元,成为全球市值第三高的半导体企业(仅次于英伟达和台积电)。
更值得注意的是,客户的恐慌性预订,正在进一步加剧供需紧张:2026 年 4 月底,三星电子存储器业务负责人金在俊在财报会上透露,部分客户已经开始预订 2027 年的 HBM 产能 —— 这在半导体产业的历史上是前所未有的。金在俊表示:“客户的需求增长速度,远远超出了我们的预期。即使我们将产能扩张计划提前 6 个月,也无法满足 2027 年的全部需求。”
结论
2026 年,是 AI 从 “静态工具” 向 “持续学习系统” 转变的关键节点 —— 这一转变,不是技术的线性迭代,而是范式的根本性革命。在这场革命中,内存半导体不再是 AI 系统的 “配角”,而是成为了决定其性能上限的 “核心主角”:从谷歌泰坦架构的存内计算需求,到 6G 基站的内存隔离挑战,每一项 AI 技术的突破,都依赖于内存半导体的创新。
存内计算(PIM)技术,是支撑这一转变的硬件基石:它将计算单元嵌入内存芯片,彻底打破了冯・诺依曼瓶颈,让 AI 系统能在实时场景中完成持续学习。而以 SK 海力士为代表的存储厂商,正通过千亿级的资本投入,推动这一技术的产业化 —— 从龙仁的超级晶圆厂,到清州的先进封装基地,每一项投资,都是对 AI 时代的押注。
尽管 2026 年的 AI 投资周期可能进入短期调整期 —— 比如部分初创企业的估值出现回调,部分传统厂商的产能扩张计划暂时放缓 —— 但向持续学习 AI 系统的长期转变,已成为不可逆转的趋势。全球内存行业如何应对这些需求,以及哪些参与者将定义其下一个架构,将成为这十年最具决定性的科技故事之一:它不仅将决定 AI 产业的格局,更将影响全球科技的未来走向。
来源:电子工程世界(EEWorld)