首页深度解析前瞻 AI资讯开源项目 AI产品论文研究 AI安全 AI实践 AI技能 AI出海

开源项目 13小时前 • 更新于 1小时前 55

高达每秒580词元！TokenSpeed在GPU智能体工作负载中创下Qwen3.5-397B-A17B新速度纪录

TokenSpeed推理引擎在Qwen3.5-397B-A17B模型上实现了每秒580个token的推理吞吐量记录。其极致性能源于对内存拷贝的系统性消除、先进的内核融合以及CPU与GPU执行的完全重叠，确保GPU持续满载。同时，该引擎通过混合前缀缓存和统一的预填充-解码状态转移，支持复杂的智能体服务场景。

75

热度

88

质量

72

影响力

深度分析

一篇面向开发者的研究突破与性能宣告

文章是一篇典型的技术发布与性能展示。它并非单纯宣布一个结果，而是通过详细阐述实现极致性能的设计哲学与具体工程方案，来证明其记录的含金量。其核心目标是向开发者与研究者传递：TokenSpeed不仅能跑得快，更能高效、稳定地支持现实世界中复杂的智能体工作负载。

系统性工程驱动性能边界突破

580 tps的记录并非来自单一的技巧，而是对整个推理栈的系统性重构。文章揭示了三个层次的关键优化：

消除冗余：在数据路径中系统性地消除内存拷贝，减少不必要的开销。
计算优化：通过先进的内核融合，减少内核启动开销并提升计算密度。
流水线化：实现完全重叠的CPU-GPU执行，使计算、数据传输等环节并行，确保GPU这个核心计算单元始终保持饱和状态。这构成了其“光速”性能承诺的基础。

攻克混合架构的工程挑战

Qwen3.5模型采用混合注意力机制，交错使用标准全注意力层与基于门控增量网络（GDN）的线性注意力层。这对推理框架提出了独特挑战。TokenSpeed的解决方案体现了深度适配：

统一抽象：提供了全GDN感知支持，将混合架构中的不同状态（如Mamba层的conv_state和temporal_state）纳入统一的缓存、调度和预填充-解码分离管理框架中。
创新的混合前缀缓存：针对智能体任务中多轮工具调用共享长上下文的痛点，设计了双层前缀缓存。逻辑层（C++）管理缓存树结构和生命周期；物理层（Python）管理实际的GPU张量。关键突破在于解决了Mamba状态复用问题——将Mamba状态槽（MambaSlot）附着在与KV缓存相同的基数树节点上，使得命中前缀时不仅能复用KV页，还能复用对应的递归状态，这对线性注意力层的缓存至关重要。

为智能体时代设计的推理框架

性能优化最终服务于功能。文章明确指出，上述设计是为智能体工作负载“量身定做”。智能体任务的特征是多轮次、长上下文共享、以及频繁的工具调用。TokenSpeed的功能直接回应了这些需求：

混合前缀缓存：通过上述设计，高效处理多轮对话中共享的长上下文和历史。
统一的状态转移：支持预填充（Prefill）与解码（Decode）阶段的状态无缝转移，确保了在复杂、多步骤任务调度过程中的连续性和效率。
生产级支持：其原生SPMD架构与静态编译旨在加速复杂多步骤智能体任务的执行，指向生产环境部署。

免责声明：以上内容由 AI 生成，仅供参考。

阅读原文 →

相关文章

[GitHub] 抱抱脸/变换器

[GitHub] invoke-ai/InvokeAI

英伟达的Vera芯片是黄仁勋不愿让你忽视的2000亿美元赌注。

阿里巴巴正围绕智能体设计AI芯片，这改变了竞争的核心所在。

德勤：规模化'自主智能'以实现真正增长