栏目分类
你的位置:欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载 > 新闻动态 >

曾撼动 Transformer 总揽地位的 Mamba 作家之一Tri Dao,刚刚带来新作——
建议两种专为推理"量身定制"的防御力机制。
在保捏模子性能不变的情况下,将解码速率和朦拢量最高擢升 2 倍,大大优化了模子的长高下文推理本领。

这项征询的三位作家均来自普林斯顿大学,论文主要有两大孝顺:
其一,建议 Grouped-Tied Attention(GTA),与已集成到 LLaMA 3 的防御力机制 GQA 质地畸形,但 KV 缓存用量减少约 50%。
其二,建议 Grouped Latent Attention(GLA),与 DeepSeek 所使用的防御力机制 MLA 质地匹配,但解码速率更快,某些情况下比 FlashMLA 快 2 倍。
按照作家之一 Ted Zadouri 的回来:
GTA 是 GQA 的灵验替代品,而 GLA 是 MLA 的实用替代品。

要而言之,通过优化防御力机制的内存使用和经营逻辑,在不葬送模子生成质地的前提下,可权贵擢升大道话模子的推理效用和硬件资源诈欺率,尤其在长高下文场景中上风更为凸起。
关系论文公布后,一众征询者也赶来道喜 ~

那么,这项征询具体讲了些啥?
引入推理感知防御力机制
概述而言,论文中枢引入了推理感知防御力机制,即针对模子推理阶段的内存冗余、经营低效、长高下文瓶颈等问题,再行遐想防御力机制。
据 Tri Dao 先容,这项征询的起初始于一个见识:
在推理开动 AI 发展的时间,"联想"架构应该是什么形势?
尤其在触及长高下文推理时,现时的大道话模子(LLM)濒临内存探访瓶颈和并行性松手两浩劫题。
便是说,模子生成笔墨时,每次王人要从内存里调取无数"历史记载",不仅导致每个字生成变慢,而且只可按规章生成、没法让多个芯片同期干活。
对此,团队缱绻从两个标的再行遐想防御力机制:
更高的硬件效用:通过加多 "每字节内存加载的经营量"(算术强度),减少对内存带宽的依赖;
保捏并行可扩张性:在不葬送模子并行磨练 / 推理本领的前提下优化解码速率。
而最终建议的 GTA 和 GLA,在减少 KV 缓存用量的同期,模子质地保捏与现存有谋划畸形,且解码速率权贵擢升。
这里提到的"现存有谋划",主要指早已有名学术界的两种范例:
一是分组查询防御力(GQA)机制,它通过分组分享 KV 缓存减少内存占用,在视觉 Transformer(ViT)等任务中施展细致,适用于大限制数据惩办,现在已应用于 Llama 3 等开源模子。
二是多头潜在防御力(MLA)机制,最早可牵记到《Attention Is All You Need》这篇论文,后被 DeepSeek 再次带火。它关切的是在不同层之间怎样交融防御力信息,能减少每一层的冗余经营。
不外,由于 GQA 仍需为每组查询头存储独处 KV、MLA 并行优化不及,故仍需进一步改动。
底下分离伸开团队建议的新范例 GTA 和 GLA。
分组绑定防御力机制 GTA
GTA 的中枢遐想想路是:将不同查询头的键(Key)和值(Value)景色进行组合与重用,减少内存传输次数。
具体而言(右图),它将多头防御力的头分为几许组(Group),每组内的头分享疏导的 Key 和 Value 参数。经营时,兼并组内的头使用疏导的 KV 缓存,仅查询(Query)参数独处。
比较之下,中间传统的多头防御力机制(MHA)每个查询头王人有独处的键和值,由于莫得分享,导致它需要更多的内存来存储悉数的键和值。
再对比 GQA 来看(左图),GQA 分组分享 KV 但每组仍独处存储,而 GTA 通过参数绑定竣事了更透顶的 KV 重叠诈欺。

分组潜在防御力机制 GLA
而 GLA 的遐想则采纳了双层结构:
潜在层(Latent Layer):引入固定数目的潜在 Tokens,行为全局高下文的压缩示意,替代部分原始 Token 的 KV 缓存;
分组头机制:将查询头分组,每组头分享潜在 Token 的 KV,同期保留与原始 Token 的交互。
在解码经由中,对比 MLA(左图),GLA 通过分享长入潜在示意减少了每个建树需要加载的 KV 缓存量,从而减少了内存探访量。
况兼由于每个建树上的 KV 缓存量减少了,更多的肯求也不错同期惩办。

「GQA 和 MLA」的灵验替代品
那么,GTA 和 GLA 的效用究竟怎样呢?
团队在四种限制的模子上进行了推行,包括微型(183M)、中型(433M)、大型(876M)和 XL(1471M)。这些模子基于 FineWeb-Edu-100B 数据集磨练,采纳 GPT-3 架构和 Llama 3 分词器。
测试的谋划主要分为两大类:
质地谋划:困惑度(Perplexity)、卑劣任务准确率(Winogrande、SciQ 等 7 个基准);
效用谋划:每 Token 解码蔓延、朦拢量、KV 缓存占用量。
推行对比了 GQA、MLA、FlashMLA、传统 MHA 等多种防御力机制。
困惑度推行泄露,GTA 在中大型模子上优于 GQA,诠释GTA 可能更安妥模子的进一步扩张;而 GLA 在多数场景下与 MLA 畸形,诠释GLA 的遐想是合理的,它能在并行经营和模子质地之间找到一个较好的平衡点。

几种有谋划鄙人游任务中(涵盖典型知识推理、逻辑推理和知识问答等场景)的举座施展差距不大。
但从变化趋势来看(下图为从中型到大型),GTA 和 GLA不错保捏或提高从中型到 XL 尺寸的卑劣任务性能。


KV 缓存方面,不葬送模子质地的前提下,GTA 比较 GQA 减少约 50% 的 KV 缓存,考据了 "参数绑定 + 分组重用" 的灵验性。
同期,针对查询长度为 1 的情况,MLA 已接近经营瓶颈(达到 610 TFLOPS/s ),而 GLA 尚未使经营资源迷漫(360 TFLOPS/s )。
且跟着序列长度从 1K 加多到 64K ,GLA 的解码速率比 FlashMLA 快 2 倍。
此外,在及时处事器性能测试中,关于 64 个并发肯求的输出朦拢量(越高越好),疏导并行有谋划下 GLA 的施展均优于 MLA。

接下来,团队还在 DeepSeek Coder V2 Base (236B)模子上,当使用 FP8 精度时,对比了二者在不同预填充长度妥协码长度下的输出朦拢量。
收尾泄露,在预填充长度为 32K 和 64K 时,GLA-8 的输出朦拢量线路高于 MLA。这标明在惩办长高下文时,GLA 在朦拢量上优于 MLA。
在惩办不平衡负载时,GLA-8 相似展现出更高的输出朦拢量。这标明 GLA 在惩办不同长度的肯求时,好像更灵验地诈欺资源,提高举座性能。

以上推行均考据了论文作家的说法,「GTA 和 GLA」是「GQA 和 MLA」的灵验替代品。

论文作家均来自普林斯顿大学
论文作家包括 Tri Dao 在内一共三位,均来自普林斯顿大学。

Ted Zadouri,现在是普林斯顿大学博士生,征询标的为机器学习。
之前曾在英特尔有过两段实习阅历(征询深度学习),还良晌在 AI 创企 Cohere 担任征询员。

Hubert Strauss,普林斯顿大学征询工程师,征询标的为机器学习和模子深度学习。
本科毕业于法国闻名工程学校 Arts et M é tiers,之后在佐治亚理工学院赢得运筹学硕士学位。
毕业后曾有多段实习和职责阅历,成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师,施展模子磨练和 Transformer 优化。

Tri Dao,现在是普林斯顿大学经营机科学助瓦解说,如故生成式 AI 初创公司 Together AI 的首席科学家。
他因建议一系列优化 Transformer 模子防御力机制的职责而有名学界。
其中最有影响力的,是其行为作家之一建议了Mamba 架构,这一架构在道话、音频和基因组学等多种模态中王人达到了 SOTA 性能。
尤其在道话建模方面,不管是预磨练如故卑劣评估,Mamba-3B 模子王人优于同等限制的 Transformer 模子,并能与两倍于其限制的 Transformer 模子相比好意思。
另外他还参与发表了FlashAttention1-3 版块,FlashAttention 被庸俗用于加快 Transformers,也曾使防御力速率提高了 4-8 倍。

Anyway,回到这项征询,论文作家 Ted Zadouri 直言:
这仅仅迈向 test-time 推理"联想"架构的第一步!

论文:
https://arxiv.org/abs/2505.21487
代码:
https://github.com/Dao-AILab/grouped-latent-attention
参考积累:
[ 1 ] https://x.com/tri_dao/status/1928170648863473892
[ 2 ] https://x.com/gm8xx8/status/1927572103806554262
[ 3 ] https://x.com/tedzadouri/status/1928167296821854363
— 完 —
� � 量子位 AI 主题规划正在征积累!宽宥参与专题365 行 AI 落地有谋划,一千零一个 AI 应用,或与咱们分享你在寻找的 AI 居品,或发现的AI 新动向。
� � 也宽宥你加入量子位逐日 AI 交流群,一齐来畅聊 AI 吧~
一键关切 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「小心心」
宽宥在评述区留住你的见识!欧洲杯投注入口
下一篇:欧洲杯下单平台还在被污蔑4.东说念主到中年容易胖-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载
