开云体育(中国)官方网站它以圭臬多头小心力(MHA)为基准-开云kaiyun登录入口登录APP下载(中国大陆)官方网站

发布日期:2026-05-02 19:50    点击次数:99

大模子相似的崎岖文窗口,只需一半内存就能已毕,何况精度无损?

前苹果 ASIC 架构师 Nils Graef,和别称 UC 伯克利在读本科生全部提倡了新的小心力机制Slim Attention。

它以圭臬多头小心力(MHA)为基准,对其中的 value 缓存措置过程进行了颐养,已毕了更少的内存占用。

具体来说,Slim Attention 既不错让KV 缓存大小减半,也不错在 KV 缓存大小不变的情况下让崎岖文翻倍,皆不会带来精度耗损。

此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2 倍。

网友评价,Slim Attention 天然浮浅,但却是一个很酷的宗旨。

还有 AI 创业者评答复,这是一项紧要冲突,可能重塑对模子捕快和部署的见识。

K-Cache is All You Need

在圭臬的 MHA 机制当中,关于输入 X 理解过线性变换,经由三个投影矩阵 W_Q、W_K、W_V 得回 Q ( query ) 、K ( key ) 和 V ( value ) 三个矩阵。

在推理阶段,每个输入 token 蓄意得回的 K 和 V 向量皆需要缓存起来,造成 KV cache 供后续 token 蓄意时使用。

Slim Attention 的中枢念念路是,运用 MHA 中 W_K 和 W_V 不竭皆是方阵的性质,只存储 K 而不服直存储 V,然后及时运用 K 蓄意出 V。

△原始 MHA(左)与革新版(右)对比

在捕快阶段,Slim Attention 与圭臬 MHA 一样,会对输入 X 蓄意 Q、K、V 三个矩阵,小心力蓄意和梯度回传也与圭臬 MHA 十足一致。

在 W_K 可逆的前提下,Slim Attention 引入一个新的参数矩阵 W_KV:

W_KV = W_K^ ( -1 ) · W_V

据此,不错得回:

V = X · W_V = X · W_K · W_K^ ( -1 ) · W_V = K · W_KV

推理过程则主要分为两个阶段——领导阶段(并行蓄意)和生成阶段(自追思)。

领导阶段与圭臬 MHA 一样,将输入的悉数 token 并行蓄意 Q、K 矩阵,但不同的是,这里不服直蓄意 V,而是将中间边界 K 缓存供后续使用。

生成阶段每个工夫步生成一个新 token,最初蓄意该工夫步的 Q 向量 q,然后基于 q 和之前工夫步缓存的 K 矩阵,蓄意小心力得(即 softmax 的输入)。

在 softmax 之前,Slim Attention 通过公式 V = K · W_KV 及时蓄意 V 矩阵。具体有两种神气 :

平直蓄意 V,然后将 softmax 边界与 V 相乘(矩阵乘法)得回小心力输出;

先将 softmax 边界与 K 相乘,然后再与 W_KV 相乘,当序列较永劫这种神气更高效。

剩余经过(残差勾通、前馈层等)与圭臬 MHA 一致,终末将现时步的 k 向量添加到 K 缓存中,供下一工夫步使用。

总之,Slim Attention 是圭臬 MHA 的精准数学重写,因此与类似步调不同,可确保准确率不会下落。

以此为前提,Slim Attention 已毕了 KV 缓存减半或崎岖文翻倍的效果。

前苹果架构师与 UC 伯克利本科奏效力

Slim Attention 的作家是 AI 初创公司 OpenMachine 的首创东谈主兼 CEO Nils Graef,以及 UC 伯克利在读本科生Andrew Wasielewski。

Nils 的主业是机器学习加快器的架构和假想,曾发表两篇 IEEE 期刊论文和 30 多项专利,援用次数跨越 900 次。

创立 OpenMachine 前,Nils 在闻明推理加快平台 Groq(小心不是马斯克的 Grok)担任芯片架构师。

更早的时候,他先后担任过谷歌 ML 加快器架构 & 假想工程师和苹果 ASIC 架构师。

Andrew Wasielewski 是 UC 伯克利在读本科生,专科是物理和 EECs(电气工程与蓄意机科学),预测将于来岁毕业。

字据论文签字信息暴露,Slim Attention 的使命是 Andrew 在 OpenMachine 完成的。

旧年 7 月,Nils 和 Andrew 还与其他东谈主配合,发表了一篇名为Flash normalization的论文,提倡了一种更快的 RNS 归一化神气。

此外皮 Slim Attention 的致谢中还提到,艾伦践诺室的 Dirk Groeneveld,以及 SGLang 三作谢志强,对其使命提供了有利商榷;Transformer 作家之一、Character.AI 首创东谈主 Noam Shazeer 给出了积极反映。

论文地址:

https://arxiv.org/abs/2503.05840

参考纠合:

https://x.com/rohanpaul_ai/status/1901092052282339474开云体育(中国)官方网站