开云中国2026世界杯手机版入口

开云体育你的位置：开云中国2026世界杯手机版入口 > 开云体育 > 开云(中国)2026世界杯版IOS|Android手机app下载当线性精通力学会「写入前念念考」: 并行化的多步回顾写入

开云(中国)2026世界杯版IOS|Android手机app下载当线性精通力学会「写入前念念考」: 并行化的多步回顾写入

发布日期：2026-06-15 06:07 点击次数：62

开云(中国)2026世界杯版IOS|Android手机app下载当线性精通力学会「写入前念念考」: 并行化的多步回顾写入

Transformer依托刚劲的建模身手和Scaling效劳在保举范围被粗造应用于超长序列建模和生成式保举等标的，但

复杂度，能在不作念序列截断的情况下处理肆意长度的行径序列，

的策动支拨不得不作念出多样和解：举例将self-attention改为cross-attention或local-attention、序列截断、序列压缩等。这些弃取虽缓解了策动压力，但不可幸免地亏本了序列中的长程行径模式。受LLM范围线性精通力（LinearAttention）及羼杂架构连络的启发，线性精通力自然具备

可能是保举范围比Transformer更匹配的底层架构。有关词，现存线性精通力模子每步只可作念rank-1的浅层写入，建模质料与Transformer仍有差距；而具有多步深度写入身手的TTT（Test-TimeTraining）虽质料突破，却因串行依赖导致磨砺隐晦量比线性精通力慢，难以工业部署。

为此，腾讯告白技能团队与北京大学调和提议PRISM（ParallelResidualIterativeSequenceModel）——在保捏线性精通力

复杂度的同期，达成TTT级别多步深度写入的序列模子。PRISM通过分析TTT-MLP的梯度结构，揭示其高抒发力源于步长×残差×标的的多步迭代模式，并发现这一高抒发力与串行瓶颈是兼并根因（权重迭代更新）的两面。基于这一知悉，PRISM在兼容parallelscan的线性景况上显式重建了该迭代模式，通过局部anchor代理摒除token间串行，通过闭合式预测算摒除step间串行，最终呈现为一个结伴的残差拟合过程：第一步当然退化为线性精通力的圭臬写入，后续步以不到10%的参数增量叠加低秩修正。在四个序列保举基准上，PRISM匹配TTT质料且隐晦量栽培174倍；与极少Transformer层构成羼杂架构后超越纯Transformerbaseline。

该责任已被机器学习范围顶级会议ICML2026请托，论文题目“PRISM:ParallelResidualIterativeSequenceModel”。

一、配景：从无尽背包到有限背包

（一）Transformer的无尽背包与线性精通力的有限背包

Transformer的Attention机制内容上是一个"无尽背包"：它把每一个token的KV都好意思满保存在KVCache中，推理时逐个比对。这带来了极强的抒发力，但存储和策动量随序列长度N呈

增长，当险峻文达到百万token量级时，即便顶尖GPU也难以承受。

为此，一系列线性复杂度序列模子（如LinearAttention、RWKV、Mamba、GatedDeltaNet等）提议了"有限背包"决议：用一个固定大小的景况矩阵

压缩存储通盘历史信息。岂论序列多长，S的大小不变，复杂度降为

背包容量有限，每来一个新token，模子必须决定往里写什么、同期擦掉什么。这个"写与擦"的端正，决定了有限背包模子的天花板。但在潜入询查"写与擦"之前，咱们先要恢复一个更基本的问题。

（二）有限背包内容上是RNN，为何还能并行？

如实如斯，有限背包模子的数学表情内容上即是RNN：

每一步的景况，无法径直并行化。那为什么巨匠说LinearAttention/Mamba是"可并行的"？

一步步算到

，这看起来自然串行，必须从

依赖上一步的

要道在于一个数学妙技：ParallelScan（并行前缀扫描）。

当递推关连（recurrence）的表情讲理线性结构

（其中

都只依赖面前输入，不依赖

）时，这个递推不错被改写为讲理麇集律的二元运算。一朝讲理麇集律，就不错用访佛"求前缀和"的阵势并行策动，其旨趣与经典的parallelprefixsum算法疏通，区别仅在于基础运算从标量加法扩充为"矩阵乘法+加法"。

具体来说，N步的串行递推不错在

），但在GPU上墙钟时代大幅镌汰。

的深度内完成，代价是多作念了一些冗余策动（总策动量变成

但这里有一个很强的前提：和必须是历史景况无关的，它们只然而面前输入的函数，不成依赖或需要读取

才能算出来，麇集律就不树立了，就无法应用parallelscan达成并交运算。

。一朝

GDN讲理这个条目：

都只依赖面前输入。是以GDN不错用parallelscan并行磨砺。

和

（三）为什么并行这样可贵？GPU的"搬运工"瓶颈

一个常见的歪曲是将"串行慢"归因于更多的浮点运算。执行上，瓶颈在别处。当代GPU的策动中枢（TensorCore/CUDACore）算力极为充沛，A100GPU每秒能作念312万亿次浮点运算（312TFLOPS）。信得过的瓶颈不是"算"，而是"搬"。

GPU的存储分为两层：

HBM（HighBandwidthMemory，高带宽显存）：容量大（40-80GB），但读写速率"慢"（约2TB/s）。模子参数、state矩阵S、中间activation都存在这里。

SRAM（片上缓存）：容量小（每个SM约192KB），但读写速率极快（约19TB/s，快10倍）。GPU的策动中枢只可径直探访SRAM。

打个譬如：SRAM像责任台（小但垂手而得），HBM像仓库（大但每次取货要走一回）。

是以每一次策动都要阅历一个"搬运"经过：把数据从HBM搬进SRAM，在SRAM里算完，再把收尾搬回HBM。这个搬运的时代频频远超策动自己，这即是所谓的memory-bound（存储带宽瓶颈）。

Parallelscan+fusedkernel的信得过威力在于：把通盘这个词序列的N步递推打包成一个大算子（fusedkernel），S矩阵只需要从HBM搬进SRAM一次，在SRAM里连气儿算完通盘步，再搬且归。数据搬运次数从

降到

淌若不成parallelscan（比如TTT），每个token都要独飞快跑一遍迭代策动，每个token都要独占一次HBM与SRAM之间的搬运，搬运次数是

退化到

，硬件专揽率断崖式下降。实测TTT-MLP比GDN慢174倍，根源不在于浮点运算量的等比增多，而在于HBM↔SRAM数据搬运次数从

能否适配parallelscan不仅是算法蓄意上的好意思学遴荐，更径直决定了10-100倍的执交运行速率互异。

（四）Rank-1写入的瓶颈

以GDN（GatedDeltaNet）为代表的线性精通力模子，每个token对S作念的是一次rank-1更新：

"擦"的部分达成了遴荐性渐忘：是全局scalargate限定举座衰减，

在方进取作念rank-1的遴荐性渐忘，为新写入腾出空间。信得过的瓶颈在“写”：每次只可往S里写入一个rank-1的外积

的回顾矩阵上只改造了"一滑”。

（即两个向量的乘积，收尾矩阵的通盘行都是兼并个标的的缩放），非常于在通盘这个词

淌若一个token佩带的语义是多维度的（它同期是某个句法结构的因素、某个语义变装的载体、某个topic的要道词），rank-1的一滑写入无法同期在这些维度上作念致密调遣。信息在压缩写入时不可幸免地丢失。

中枢矛盾：背包有限，每次却只允许写一滑。这是面前通盘线性复杂度模子的共有瓶颈。

（五）TTT的突破与代价

既然rank-1写入太浅，一个当然的方针是：让模子学会更深的写入端正。

TTT（Test-TimeTraining）系列责任采纳了一种根人性不同的战略：把回顾景况从一个linear矩阵S升级为一个MLP的权重矩阵。每来一个token，对MLP的权重作念多步梯度下降（multi-stepGD），冉冉精湛写入内容。这带来了显赫的质料栽培。

但TTT的多步GD碎裂了历史景况无关前提。每步的梯度

，带来174倍的速率差距。

返璧

不再是输入的纯函数，parallelscan的数学前提从根蒂上被碎裂。后果很径直：每个token的策动都要独飞快、串行地跑一遍梯度下降轮回，fusedkernel打包不了，HBM与SRAM搬运次数从

又依赖前一步，这让

，而

依赖面前权重

PRISM要贬责的中枢问题：蓄意一个多步写入机制，同期讲理两个条目——(1)像TTT一样有步长×残差×标的的多步迭代深度；(2)像GDN一样

都是历史景况无关的，能被打包成parallelscan的fusedkernel。

二、分析：TTT-MLP为什么成果好，但速率慢？

在蓄意PRISM之前，开云(中国)2026世界杯版IOS|Android手机app下载咱们来源潜入分析TTT-MLP的梯度结构，弄明晰它的高抒发力到底从何而来。

（一）步长×残差×标的模式的暴露

TTT-MLP的景况是两层网罗

。张开其W₂的梯度更新：

每步更新具有一个结构模式：

步长：

，每个hiddenunit的activation，限定写入强度

残差：，面前还没写好的部分，跟着更新冉冉递减

标的：

每步更新是以标的每步不同

，写入的标的，因为

TTT-MLP的高抒发力正来自这个步长×残差×标的模式：多步残差递减提供了优化深度（depth），W₁多行提供多个标的则提供了抒发宽度（width/rank-L）（即同期修改S矩阵的L个孤立维度）。

（二）高抒发力与串行是兼并根因的两面

要道知悉：驱动步长×残差×标的模式的是权重每步更新。正是因为

每步都在变，标的才会变（width），残差才会减（depth）。但兼并个“权重每步更新”也恰正是串行的根源。

具体来说，它形成了两个维度的串行瓶颈：

1.Token间串行（Inter-tokenSeriality）

瓶颈A（渐忘与写入的耦合）：TTT的梯度更新让S的渐忘和写入纠缠在一皆，recurrence无法写成第一节所述的线性表情

，parallelscan的前提不再讲理。

瓶颈B（残差依赖历史景况）：每个token的残差

，通盘token的策动过程只可列队践诺。

需要读取前一个token的精准景况

2.Step间串行（Intra-stepSeriality）

瓶颈C（标的与残差的同步）：在多步GD中，第l+1步的写入标的必须恭候第l步的权重更新完结才能笃定，残差也必须等上一步算完才能得到，强制引入一个无法张开的轮回。

瓶颈C是最中枢的矛盾：它同期是rank-L抒发力的载体和步间串行的根源。因此摒除瓶颈C不成简便取消迭代，必须在取消同步耦合的同期保留多标的和残差递减带来的抒发力。

三、法子：PRISM的蓄意与达成

基于上述分析，PRISM的战略相等明确：在兼容parallelscan的线性景况S上显式重建TTT-MLP的步长×残差×标的模式，然后分维度摒除串行。

（一）中枢迭代表情：步长×残差×标的

PRISM显式构造了TTT-MLP的多步迭代模式：

每步是

（步长×残差×标的），L步积聚rank-L写入。

与TTT-MLP的对应关连：

为什么PRISM必须用学得的

的外积，对loss求梯度时，行标的老是与k共线，梯度的行标的锁死在k方进取，L步GD积聚恒久rank-1。TTT-MLP之是以能rank-L，是因为

而不成径直作念多步GD？因为在线性景况S上，线性景况的写入是

MLPhiddenlayer的非线性提供了隐式的多标的。PRISM在线性景况上莫得hiddenlayer，必须显式引入L个可学习标的来补回这一身手。

（二）摒除Token间串行：A/B区别+局部Anchor代理

渐忘/写入区别（贬责瓶颈A）：PRISM的渐忘项保捏跟GDN皆备一致

内。使迭代式保捏

，通盘非线性操作落拓在写入项

表情，parallelscan骨架不动，Mamba的scankernel径直复用。

局部Anchor代理（贬责瓶颈B）：用局部历史景况

（局部anchor基于短卷积（ShortConv）达成）替代全局景况S。Anchor只依赖局部输入窗口，不读S，通盘token的迭代策动不错同期运行。

至此，序列级别的parallelscan已皆备收复。anchor让不同token的迭代不错同期启动，但每个token里面的L步之间仍需规矩践诺（瓶颈C）。

（三）摒除Step间串行：解耦链+闭合式预测算

贬责瓶颈C。因为有了anchor，两条链当然解耦：

Directionchain解耦：

，因为anchor是事前给定的局部统计量（不依赖迭代过程），通盘L个标的不错同期算出。

Residualchain线性化：将迭代内的GELU非线性领受进事前策动好的缩放统共（preconditioner）

，梯度下降的迭代过程退化为纯element-wise线性递推：

由此多步迭代推算得到闭合式：

L步的串行轮回被消解为单步闭合式策动。通盘这个词多步梯度下降策动过程不错编译成一个fusedkernel，数据只需要从HBM搬进SRAM一次。

（四）架构全貌与GDN退化

多步梯度下降策动过程的原始产出是L个rank-1迭代策动：

不雅察迭代第一步使

，就得到了GDN+非线性修正项的表情：

，此先锋无前序输出，残差等于启动输入自己，且无需经过非线性变换，因此第一步的写入当然退化为

PRISM不错视为一种多步残差拟总策动过程，L=1时精准退化为GDN。后续步仅仅在第一步的基础上追加非线性修正，且不错使用lowrank网罗增量，稀奇参数目不卓越基础模子的10%。

四、实验收尾

（一）序列保举

在公开序列保举基准Amazon上，PRISM阐扬与Transformerbaseline成果接近，卓越大无数线性精通力类法子。策动效劳方面，PRISM与GDN同级，比TTT-MLP快174倍。

（二）道话建模（基于SlimPajama2B磨砺，130M参数）

在更大限制的道话建模实验上（SlimPajama2Btokens，Mistraltokenizer），PRISM一样得到了全面最初：

PRISM在WikiTextPPL、LAMBADAPPL和9项Zero-Shot卑劣任务平均准确率上均为最优，最初GDN3.2个百分点。

（三）组件消融

磨砺PPL互异极小，但卑劣泛化互异精深。单步solver(L=1)的磨砺PPL险些等于好意思满版，但AvgACC下落2.9个百分点——rank-L的信得过价值不在next-tokenprediction上，而在需要精准长程检索的卑劣任务上。

更值得精通的是shared-Kvsbase-K的对比：solver两步共用孤立的险些不掉分（−0.3），但复用GDNbase的key则大幅退化（−1.5）。这施展solver需要我方的标的空间，在GDN还是写入的key方进取重迭操作无法补充新信息。

五、蔓延念念考

（一）有限背包终究有限，羼杂架构也许是势必

开云体育app2026世界杯中国官网下载

即使有了rank-L的深度写入，有限背包终究是有限的。S的容量是

，当序列长到几十万token，要道信息如故可能被隐匿。

从PRISM的视角看，这个直观有一个很好的技能解说。PRISM用短卷积（ShortConv）策动的局部anchor替代全局景况S来近似残差。由于短卷积窗口频频只隐匿最近3-4个token，关于需要进取数千步的长程依赖，近似质料势必下降。

淌若在PRISM层之间穿插极少Transformer层，后者就充任了一种全局的、非线性的历史景况精准策动器，能赔偿anchor在长程上的近似间隙。从这个角度看，Transformer自己即是ShortConvanchor的"全局升级版"：ShortConv用固定窗口的局部卷积近似历史景况，Transformer用全局attention精准算历史景况。

这也许解说了为什么近期险些通盘阐扬最佳的长序列模子（Jamba、Zamba、Griffin等）都收受了羼杂架构：不是因为LinearAttention或SSM存在身手劣势而需要Transformer动作补充，而是因为有限背包和无尽背包在架构层面是互补的。前者提供

的高速处理和压缩存储，后者提供精准的长程检索。羼杂架构让模子有机和会过Transformer层找回有限背包中丢失的信息。

（二）线性精通力的LoRA？

PRISM的最终表情有一个意念念的结构特征：

这个"基础迭代过程+lowrank旁路"的表情，跟LoRA（Low-RankAdaptation）相等相似，这启发了一个微调场景下的意念念念念路。

LoRA的中枢念念想是：冻结预磨砺好的大模子权重，只在要道层傍边加一条low-rank旁路来作念微调。受PRISM表情的启发，咱们不错联想一种面向LinearAttention/SSM模子的参数高效微调法子：对已磨砺好的模子，冻结基础迭代过程，只在写入岔路上增多一条PRISM作风的残差拟合旁路，此外，这条旁路有闭合式（不增多磨砺时代），况且第一步退化为原模子的圭臬写入（不梗阻预磨砺学问）。这意味着它讲理LoRA的两个要道要求：参数高效和不损伤原模子身手。

结语

PRISM考据了"写入前念念考"范式在线性精通力模子中的可行性：通过分析TTT-MLP的梯度结构揭示步长×残差×标的迭代模式，在线性景况上显式重建该模式并通过anchor代理和闭合式预测算达成皆备并行。最终架构极简——GDN+非线性旁路，磨砺速率与GDN同级，参数增量不到10%。在保举和道话建模两个场景上的考据标明，这是一项通用的线性精通力增强技能。昔时咱们将进一步探索PRISM在更大参数限制上的scaling行径和保举系统上的应用成果，以偏激动作线性精通力模子参数高效微调法子的执行成果。

参考文件：

[1]Sunetal.“Learningto(LearnatTestTime):RNNswithExpressiveHiddenStates.”NeurIPS2024.

[2]Yangetal.“GatedDeltaNetworkswithPairwiseTokenizedGraphs.”NeurIPS2024.

[3]Katharopoulosetal.“TransformersareRNNs:FastAutoregressiveTransformerswithLinearAttention.”ICML2020.开云(中国)2026世界杯版IOS|Android手机app下载

上一篇：开云(中国)2026世界杯版IOS|Android手机app下载居莱尔本场数据：8射3正，5次过东说念主仅1次得手，2次关节传球

下一篇：开云(中国)2026世界杯版IOS|Android手机app下载再爆大冷，国羽男双2-0天下第7，夺冠！国羽3金2银收官印尼1金2银

友情链接：

daliantanning.com备案号备案号:

技术支持:®开云中国2026世界杯 RSS地图 HTML地图

开云中国2026世界杯手机版入口

开云(中国)2026世界杯版IOS|Android手机app下载 当线性精通力学会「写入前念念考」: 并行化的多步回顾写入

开云(中国)2026世界杯版IOS|Android手机app下载当线性精通力学会「写入前念念考」: 并行化的多步回顾写入