欧洲杯投注入口这项征询的三位作家均来自普林斯顿大学-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载 - 欧洲杯下单平台- 欧洲杯下单APP

栏目分类

你的位置：欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载 > 新闻动态 >

欧洲杯投注入口这项征询的三位作家均来自普林斯顿大学-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载

发布日期：2026-06-13 09:51 点击次数：114

欧洲杯投注入口这项征询的三位作家均来自普林斯顿大学-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载

曾撼动 Transformer 总揽地位的 Mamba 作家之一Tri Dao，刚刚带来新作——

建议两种专为推理"量身定制"的防御力机制。

在保捏模子性能不变的情况下，将解码速率和朦拢量最高擢升 2 倍，大大优化了模子的长高下文推理本领。

这项征询的三位作家均来自普林斯顿大学，论文主要有两大孝顺：

其一，建议 Grouped-Tied Attention（GTA），与已集成到 LLaMA 3 的防御力机制 GQA 质地畸形，但 KV 缓存用量减少约 50%。

其二，建议 Grouped Latent Attention（GLA），与 DeepSeek 所使用的防御力机制 MLA 质地匹配，但解码速率更快，某些情况下比 FlashMLA 快 2 倍。

按照作家之一 Ted Zadouri 的回来：

GTA 是 GQA 的灵验替代品，而 GLA 是 MLA 的实用替代品。

要而言之，通过优化防御力机制的内存使用和经营逻辑，在不葬送模子生成质地的前提下，可权贵擢升大道话模子的推理效用和硬件资源诈欺率，尤其在长高下文场景中上风更为凸起。

关系论文公布后，一众征询者也赶来道喜 ~

那么，这项征询具体讲了些啥？

引入推理感知防御力机制

概述而言，论文中枢引入了推理感知防御力机制，即针对模子推理阶段的内存冗余、经营低效、长高下文瓶颈等问题，再行遐想防御力机制。

据 Tri Dao 先容，这项征询的起初始于一个见识：

在推理开动 AI 发展的时间，"联想"架构应该是什么形势？

尤其在触及长高下文推理时，现时的大道话模子（LLM）濒临内存探访瓶颈和并行性松手两浩劫题。

便是说，模子生成笔墨时，每次王人要从内存里调取无数"历史记载"，不仅导致每个字生成变慢，而且只可按规章生成、没法让多个芯片同期干活。

对此，团队缱绻从两个标的再行遐想防御力机制：

更高的硬件效用：通过加多 "每字节内存加载的经营量"（算术强度），减少对内存带宽的依赖；

保捏并行可扩张性：在不葬送模子并行磨练 / 推理本领的前提下优化解码速率。

而最终建议的 GTA 和 GLA，在减少 KV 缓存用量的同期，模子质地保捏与现存有谋划畸形，且解码速率权贵擢升。

这里提到的"现存有谋划"，主要指早已有名学术界的两种范例：

一是分组查询防御力（GQA）机制，它通过分组分享 KV 缓存减少内存占用，在视觉 Transformer（ViT）等任务中施展细致，适用于大限制数据惩办，现在已应用于 Llama 3 等开源模子。

二是多头潜在防御力（MLA）机制，最早可牵记到《Attention Is All You Need》这篇论文，后被 DeepSeek 再次带火。它关切的是在不同层之间怎样交融防御力信息，能减少每一层的冗余经营。

不外，由于 GQA 仍需为每组查询头存储独处 KV、MLA 并行优化不及，故仍需进一步改动。

底下分离伸开团队建议的新范例 GTA 和 GLA。

分组绑定防御力机制 GTA

GTA 的中枢遐想想路是：将不同查询头的键（Key）和值（Value）景色进行组合与重用，减少内存传输次数。

具体而言（右图），它将多头防御力的头分为几许组（Group），每组内的头分享疏导的 Key 和 Value 参数。经营时，兼并组内的头使用疏导的 KV 缓存，仅查询（Query）参数独处。

比较之下，中间传统的多头防御力机制（MHA）每个查询头王人有独处的键和值，由于莫得分享，导致它需要更多的内存来存储悉数的键和值。

再对比 GQA 来看（左图），GQA 分组分享 KV 但每组仍独处存储，而 GTA 通过参数绑定竣事了更透顶的 KV 重叠诈欺。

分组潜在防御力机制 GLA

而 GLA 的遐想则采纳了双层结构：

潜在层（Latent Layer）：引入固定数目的潜在 Tokens，行为全局高下文的压缩示意，替代部分原始 Token 的 KV 缓存；

分组头机制：将查询头分组，每组头分享潜在 Token 的 KV，同期保留与原始 Token 的交互。

在解码经由中，对比 MLA（左图），GLA 通过分享长入潜在示意减少了每个建树需要加载的 KV 缓存量，从而减少了内存探访量。

况兼由于每个建树上的 KV 缓存量减少了，更多的肯求也不错同期惩办。

「GQA 和 MLA」的灵验替代品

那么，GTA 和 GLA 的效用究竟怎样呢？

团队在四种限制的模子上进行了推行，包括微型（183M）、中型（433M）、大型（876M）和 XL（1471M）。这些模子基于 FineWeb-Edu-100B 数据集磨练，采纳 GPT-3 架构和 Llama 3 分词器。

测试的谋划主要分为两大类：

质地谋划：困惑度（Perplexity）、卑劣任务准确率（Winogrande、SciQ 等 7 个基准）；

效用谋划：每 Token 解码蔓延、朦拢量、KV 缓存占用量。

推行对比了 GQA、MLA、FlashMLA、传统 MHA 等多种防御力机制。

困惑度推行泄露，GTA 在中大型模子上优于 GQA，诠释GTA 可能更安妥模子的进一步扩张；而 GLA 在多数场景下与 MLA 畸形，诠释GLA 的遐想是合理的，它能在并行经营和模子质地之间找到一个较好的平衡点。

几种有谋划鄙人游任务中（涵盖典型知识推理、逻辑推理和知识问答等场景）的举座施展差距不大。

但从变化趋势来看（下图为从中型到大型），GTA 和 GLA不错保捏或提高从中型到 XL 尺寸的卑劣任务性能。

KV 缓存方面，不葬送模子质地的前提下，GTA 比较 GQA 减少约 50% 的 KV 缓存，考据了 "参数绑定 + 分组重用" 的灵验性。

同期，针对查询长度为 1 的情况，MLA 已接近经营瓶颈（达到 610 TFLOPS/s ），而 GLA 尚未使经营资源迷漫（360 TFLOPS/s ）。

且跟着序列长度从 1K 加多到 64K ，GLA 的解码速率比 FlashMLA 快 2 倍。

此外，在及时处事器性能测试中，关于 64 个并发肯求的输出朦拢量（越高越好），疏导并行有谋划下 GLA 的施展均优于 MLA。

接下来，团队还在 DeepSeek Coder V2 Base （236B）模子上，当使用 FP8 精度时，对比了二者在不同预填充长度妥协码长度下的输出朦拢量。

收尾泄露，在预填充长度为 32K 和 64K 时，GLA-8 的输出朦拢量线路高于 MLA。这标明在惩办长高下文时，GLA 在朦拢量上优于 MLA。

在惩办不平衡负载时，GLA-8 相似展现出更高的输出朦拢量。这标明 GLA 在惩办不同长度的肯求时，好像更灵验地诈欺资源，提高举座性能。

以上推行均考据了论文作家的说法，「GTA 和 GLA」是「GQA 和 MLA」的灵验替代品。

论文作家均来自普林斯顿大学

论文作家包括 Tri Dao 在内一共三位，均来自普林斯顿大学。

Ted Zadouri，现在是普林斯顿大学博士生，征询标的为机器学习。

之前曾在英特尔有过两段实习阅历（征询深度学习），还良晌在 AI 创企 Cohere 担任征询员。

Hubert Strauss，普林斯顿大学征询工程师，征询标的为机器学习和模子深度学习。

本科毕业于法国闻名工程学校 Arts et M é tiers，之后在佐治亚理工学院赢得运筹学硕士学位。

毕业后曾有多段实习和职责阅历，成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师，施展模子磨练和 Transformer 优化。

Tri Dao，现在是普林斯顿大学经营机科学助瓦解说，如故生成式 AI 初创公司 Together AI 的首席科学家。

他因建议一系列优化 Transformer 模子防御力机制的职责而有名学界。

其中最有影响力的，是其行为作家之一建议了Mamba 架构，这一架构在道话、音频和基因组学等多种模态中王人达到了 SOTA 性能。

尤其在道话建模方面，不管是预磨练如故卑劣评估，Mamba-3B 模子王人优于同等限制的 Transformer 模子，并能与两倍于其限制的 Transformer 模子相比好意思。

另外他还参与发表了FlashAttention1-3 版块，FlashAttention 被庸俗用于加快 Transformers，也曾使防御力速率提高了 4-8 倍。

Anyway，回到这项征询，论文作家 Ted Zadouri 直言：

这仅仅迈向 test-time 推理"联想"架构的第一步！

论文：

https://arxiv.org/abs/2505.21487

代码：

https://github.com/Dao-AILab/grouped-latent-attention

参考积累：

[ 1 ] https://x.com/tri_dao/status/1928170648863473892

[ 2 ] https://x.com/gm8xx8/status/1927572103806554262

[ 3 ] https://x.com/tedzadouri/status/1928167296821854363

— 完 —

� � 量子位 AI 主题规划正在征积累！宽宥参与专题365 行 AI 落地有谋划，一千零一个 AI 应用，或与咱们分享你在寻找的 AI 居品，或发现的AI 新动向。

� � 也宽宥你加入量子位逐日 AI 交流群，一齐来畅聊 AI 吧～

一键关切 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「小心心」

宽宥在评述区留住你的见识！欧洲杯投注入口

上一篇：欧洲杯下单APP5.1傍边放出考试大纲-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载
下一篇：欧洲杯下单平台还在被污蔑4.东说念主到中年容易胖-欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载

欧洲杯下单平台- 欧洲杯下单APP - 欧洲杯下单最新手机版下载！

栏目分类