开源项目 13小时前 更新于 1小时前 55

高达每秒580词元!TokenSpeed在GPU智能体工作负载中创下Qwen3.5-397B-A17B新速度纪录

TokenSpeed推理引擎在Qwen3.5-397B-A17B模型上实现了每秒580个token的推理吞吐量记录。其极致性能源于对内存拷贝的系统性消除、先进的内核融合以及CPU与GPU执行的完全重叠,确保GPU持续满载。同时,该引擎通过混合前缀缓存和统一的预填充-解码状态转移,支持复杂的智能体服务场景。

75
热度
88
质量
72
影响力

深度分析

一篇面向开发者的研究突破与性能宣告

文章是一篇典型的技术发布与性能展示。它并非单纯宣布一个结果,而是通过详细阐述实现极致性能的设计哲学与具体工程方案,来证明其记录的含金量。其核心目标是向开发者与研究者传递:TokenSpeed不仅能跑得快,更能高效、稳定地支持现实世界中复杂的智能体工作负载。

系统性工程驱动性能边界突破

580 tps的记录并非来自单一的技巧,而是对整个推理栈的系统性重构。文章揭示了三个层次的关键优化:

  • 消除冗余:在数据路径中系统性地消除内存拷贝,减少不必要的开销。
  • 计算优化:通过先进的内核融合,减少内核启动开销并提升计算密度。
  • 流水线化:实现完全重叠的CPU-GPU执行,使计算、数据传输等环节并行,确保GPU这个核心计算单元始终保持饱和状态。这构成了其“光速”性能承诺的基础。

攻克混合架构的工程挑战

Qwen3.5模型采用混合注意力机制,交错使用标准全注意力层与基于门控增量网络(GDN)的线性注意力层。这对推理框架提出了独特挑战。TokenSpeed的解决方案体现了深度适配:

  • 统一抽象:提供了全GDN感知支持,将混合架构中的不同状态(如Mamba层的conv_statetemporal_state)纳入统一的缓存、调度和预填充-解码分离管理框架中。
  • 创新的混合前缀缓存:针对智能体任务中多轮工具调用共享长上下文的痛点,设计了双层前缀缓存。逻辑层(C++)管理缓存树结构和生命周期;物理层(Python)管理实际的GPU张量。关键突破在于解决了Mamba状态复用问题——将Mamba状态槽(MambaSlot)附着在与KV缓存相同的基数树节点上,使得命中前缀时不仅能复用KV页,还能复用对应的递归状态,这对线性注意力层的缓存至关重要。

为智能体时代设计的推理框架

性能优化最终服务于功能。文章明确指出,上述设计是为智能体工作负载“量身定做”。智能体任务的特征是多轮次、长上下文共享、以及频繁的工具调用。TokenSpeed的功能直接回应了这些需求:

  • 混合前缀缓存:通过上述设计,高效处理多轮对话中共享的长上下文和历史。
  • 统一的状态转移:支持预填充(Prefill)与解码(Decode)阶段的状态无缝转移,确保了在复杂、多步骤任务调度过程中的连续性和效率。
  • 生产级支持:其原生SPMD架构与静态编译旨在加速复杂多步骤智能体任务的执行,指向生产环境部署。

免责声明:以上内容由 AI 生成,仅供参考。