发布时间:2026-02-17 18:08:54 点击量:
HASH GAME - Online Skill Game GET 300
大模型的演进史,本质上是一部与“遗忘”抗争的历史。 当我们惊叹于模型的推理能力时,往往忽视了一个重要短板: 在缺乏记忆留存的架构下,模型每一次对历史信息的处理,本质上都是一次昂贵的“重复计算”。 这种以高昂算力对抗遗忘的粗放模式,正面临着显存墙与上下文窗口的物理极限。我们认为,2026年及之后的AI Infra主战场将增加“模型记忆”这一极。 何为模型记忆?如何理解短期、中期、长期记忆三层记忆系统对应的软硬件需求?如何对应模型训练、推理、Agent场景理解记忆分层系统?我们将在本报告中予以解答。
大语言模型的演进史,本质上是一部与“遗忘”抗争的历史。从早期Transformer的“无状态”(Stateless)困境,到2025年DeepMind提出的嵌套学习(Nested Learning)与2026年初DeepSeek发布的“Engram条件记忆”架构,模型记忆正经历从静态数据存储向动态基础设施的质变。我们发现,AI正在从一个仅会做单次推理的“计算器”,进化为一个拥有连贯认知、能够利用历史经验修正当前输出的“动态智能系统”。
AI场景下的记忆分层模型。 在AI基础设施体系中,数据流转不再局限于单一介质,而是围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构。其数据类型可归纳为模型相关数据(参数、梯度等)、运行态数据(激活值、KV Cache等)以及持久化数据(语料、检查点Check Point、日志等)。从系统演进视角看, 训练阶段以长期记忆写入为核心,推理阶段目前由短期记忆主导,而Agent的落地则需要中期记忆作为支撑。 我们认为,这种分层架构不仅决定了“当下算力如何释放”,更决定了系统在真实环境中的进化能力。
模型训练阶段:长期记忆的持久化写入。训练阶段的本质是将海量语料固化为模型参数,即长期记忆的构建过程,此时短期记忆仅作为中间状态存在,无中期记忆需求。在数据形态方面,长期记忆主要包含原始模型参数(权重)、训练数据(包含语料和标注数据)、训练检查点(Checkpoint)。短期记忆中包含激活值(Activation)、梯度(Gradient)、优化器状态(如Adam的一阶、二阶矩)等信息。在硬件链路上,训练数据与模型参数由SSD加载至GPU HBM参与前向与反向传播,产生的激活值、梯度及优化器状态构成短期记忆,随计算进程实时更迭。为确保长周期训练的稳定性,系统需将参数及状态定期写入存储形成检查点。我们认为,此阶段的工程压力集中于HBM的计算带宽与SSD的Checkpoint持久化写入。
模型推理阶段:短期记忆驱动的显存博弈。推理阶段以“单次任务执行”为特征, 短期记忆成为决定系统吞吐与首字延迟(TTFT)的核心工作集 。数据形态方面,模型推理需要的短期记忆包含上下文Tokens和KV Cache,随序列长度线性增长;长期记忆主要是只读的、已固化的模型权重;中期记忆作为增强选项,以向量检索结果或历史摘要的形式按需挂载。硬件链路上,已训练完成的模型参数作为长期记忆载体加载至GPU HBM,在自回归生成的每一轮次中,KV Cache规模随之扩张,若超出显存容量则需下放(Offload)至NVMe SSD以换取空间,这一过程通常伴有一定的I/O延迟。若启用检索增强或Agent能力,模型还会在推理过程中访问存储在NVMe SSD/DRAM中的中期记忆。我们认为这一阶段的核心瓶颈在于KV Cache对HBM容量的挤占,推理成本对显存利用率较为敏感。
Agent运行阶段:中期记忆定义的进化闭环。Agent阶段标志着AI从一次性推理向长期运行状态机的跨越,中期记忆跃升为系统智能的连续性载体。数据形态方面,短期记忆聚焦于当前思考链(CoT)与单步执行;长期记忆沉淀为用户画像、领域规则及内隐参数;而中期记忆则存续着跨会话的历史轨迹、工具调用栈、环境反馈及阶段性共识。硬件链路方面,短期记忆仍由HBM承载以保障推理速度。但决定Agent“像人一样连续工作”的关键,在于存储于DRAM(热索引)与NVMe SSD(温数据)中的中期记忆。 当新任务触发相关性阈值时,Agent优先检索中期记忆,将“经验”回注到当前上下文,实现跨时间尺度的知识复用。 我们认为,长期记忆在此场景下更多承担稳定锚点角色,而中期记忆的活跃度直接决定了Agent在复杂生产环境中的交付上限,是未来AI应用层突破的核心变量。
在单次推理中,短期记忆构成了大模型的“当前视野”。类比人类在处理复杂任务时的“思维草稿纸”或者“办公桌台面”,短期记忆决定了模型在一次推理时能够同时看到多少信息,以及处理信息的速度有多快。根据Google Research[1],Transformer架构中的注意力机制(Attention)本质上充当了短期记忆的角色,它通过计算Token间的依赖关系,在单次推理的上下文窗口(Context Window)内实现信息的共享。
► 物理资源:容量与带宽的双重“显存墙”。在FP16精度下,KV Cache的显存占用随上下文长度呈线)。另外,根据UC Berkeley团队研究[2],传统内存管理技术会导致显存出现碎片化问题,导致显存的浪费率高达60-80%。在Transformer的自注意力机制作用下,模型每生成一个新token,就需要将庞大的历史KV Cache数据从HBM搬运到计算单元。因此,HBM带宽除了影响上下文窗口的长度外,也直接限制了推理速度。
近期,Gemini吸引了全球投资人的关注,我们追溯其关键技术,发现2024年4月Google DeepMind团队提出的无限注意力(Infini-attention)机制是支撑自Gemini 1.5 Pro开始的百万上下文窗口的关键技术。DeepMind团队通过在Transformer中植入压缩记忆模块,把旧的KV Cache压缩成线性注意力的参数形式,并将其作为一种可复用的记忆状态参与后续推理[7]。这种设计不仅解决了灾难性遗忘问题,更重要的是它支持通过微调直接应用到现有的LLM架构中,成为了当前实现无限上下文成本较低、落地较快的技术路径。
短期记忆作为模型推理时的“案头工作区”,本质是高频读写、对延迟极度敏感的“热数据”,访问延迟要低、吞吐带宽要高,主要对应物理硬件层面的三类需求:1)HBM(High bandwidth memory,高带宽内存)用以承接KV Cache的膨胀;2)片上SRAM(Static random-access memory,静态随机存取存储器)负责处理瞬时状态,尤其在Mamba/RetNet等线性注意力架构以及Groq的LPU架构中支持“时间换空间”,提供更低的访问延迟;3)NVLink等互连技术将分散的显存编织成统一的记忆资源池。
► 分层RAG(Tree/Hierarchical RAG):解决“看不全”的全局摘要。向量RAG将上下文切割为大量彼此独立的“碎片”,检索也主要基于语义相似度,难以表达跨段落、跨章节的逻辑关系。以斯坦福提出的RAPTOR架构[10]为代表的分层RAG通过聚类算法构建递归摘要树,系统可以先检索顶层的对话摘要,再按需下钻到具体的细节叶子节点。我们认为,这种由粗到细的检索策略有助于提升模型在跨文档摘要和长周期任务中的连贯性。
► GraphRAG:解决“想得透”的逻辑推理,我们认为有望成为未来的主流形态。 通过引入知识图谱,将信息显式拆解为“实体–关系”结构,使系统具备结构化推理能力 。 中期记忆的GraphRAG侧重于事件链(Event Chain)的构建。它能将散落在不同时间点的碎片信息显式连接起来。 在产业落地时,部分GraphRAG采用图数据库+向量数据库的混合架构,图数据库负责存储实体节点及关系边,向量数据库存储实体及关系描述的向量表示。 根据微软研究[11],在处理播客和新闻数据集的全局性查询时,GraphRAG在保持推理精度的同时实现了9-43x的上下文Token压缩,显著降低了显存占用与推理成本。
注:STM为短期记忆;MTM为中期记忆,将短期记忆的连续对话切分为,并依据交互频次计算热度值,代表数据的重要度和相关性,以热度为标准选择是否存入;LPM为长期记忆,仅当中期记忆的热度超过阈值时,从中期记忆提取出结构化事实写入长期记忆。 资料来源:Kang, Jiazheng, et al. Memory OS of AI Agent. arXiv preprint arXiv:2506.06326 (2025),中金公司研究部
► 企业级SSD(Solid State Drive,固态硬盘):实际工程落地中,通过微软DiskANN技术,DRAM只需存放占总原始向量5-10%的压缩向量索引, 而图和高精度向量索引下沉至SSD[13],同时SSD还承载海量原始内容切片。 在高并发随机向量检索下,需要SSD满足高IOPS和低延迟响应。这使得企业级NVMe SSD(Non-Volatile Memory express SSD,非易失性内存接口规范SSD)成为重要基础设施。
如果说短期记忆是模型的“显存工作台”,那么长期记忆则是模型的“世界图书馆”。它让AI打破预训练截止时间的限制,实现知识的积累与实时更新。在传统的Transformer范式中,长期记忆等同于模型权重,一旦训练完成、记忆即固化。然而,伴随实时更新的需求显现,我们发现目前模型训练、推理的界限正在逐渐模糊。根据Google Research的定义,下一代长期记忆应当是能够随着推理过程的展开而不断更新的动态系统。
Nested Learning旨在提供从快适应到慢固化的系统化思路。2025年,Google提出Nested Learning(嵌套学习)范式[14],将学习系统组织成多层级、不同更新频率的嵌套记忆模块,快层负责快速适应与记忆写入,慢层负责稳定抽象与长期固化,并通过上下文的压缩实现跨时间尺度的知识沉淀。基于学术前沿研究与产业实践,我们将长期记忆的实现概括为内隐参数、外显语义以及参数化查表三种路线:长期记忆框架与对应软硬件需求
这种机制让模型能够像人类一样,把短期信息消化为长期的神经网络突触连接,实现对无限上下文的有损但高效的压缩。我们认为测试时训练也是支持大模型通往在线学习(Online Learning)的路径之一。► 存量改造:PEFT与LoRA的离线固化。 区别于全量微调,PEFT(Parameter-Efficent Fine-Tuning,参数高效微调)思想的核心逻辑是维持原模型参数不动,增加极少量的“新参数”用来储存新知识。微软提出的LoRA(Low-Rank Adaptation,低秩适配器)[16]是PEFT思想下比较主流的技术手段。它通过在大模型参数旁边增加一个小的旁路矩阵来实现个性化记忆。