高达每秒580词元!TokenSpeed在GPU智能体工作负载中创下Qwen3.5-397B-A17B新速度纪录
TokenSpeed推理引擎在Qwen3.5-397B-A17B模型上实现了每秒580个token的推理吞吐量记录。其极致性能源于对内存拷贝的系统性消除、先进的内核融合以及CPU与GPU执行的完全重叠,确保GPU持续满载。同时,该引擎通过混合前缀缓存和统一的预填充-解码状态转移,支持复杂的智能体服务场景。
75
热度
88
质量
72
影响力
深度分析
一篇面向开发者的研究突破与性能宣告
文章是一篇典型的技术发布与性能展示。它并非单纯宣布一个结果,而是通过详细阐述实现极致性能的设计哲学与具体工程方案,来证明其记录的含金量。其核心目标是向开发者与研究者传递:TokenSpeed不仅能跑得快,更能高效、稳定地支持现实世界中复杂的智能体工作负载。
系统性工程驱动性能边界突破
580 tps的记录并非来自单一的技巧,而是对整个推理栈的系统性重构。文章揭示了三个层次的关键优化:
- 消除冗余:在数据路径中系统性地消除内存拷贝,减少不必要的开销。
- 计算优化:通过先进的内核融合,减少内核启动开销并提升计算密度。
- 流水线化:实现完全重叠的CPU-GPU执行,使计算、数据传输等环节并行,确保GPU这个核心计算单元始终保持饱和状态。这构成了其“光速”性能承诺的基础。
攻克混合架构的工程挑战
Qwen3.5模型采用混合注意力机制,交错使用标准全注意力层与基于门控增量网络(GDN)的线性注意力层。这对推理框架提出了独特挑战。TokenSpeed的解决方案体现了深度适配:
- 统一抽象:提供了全GDN感知支持,将混合架构中的不同状态(如Mamba层的
conv_state和temporal_state)纳入统一的缓存、调度和预填充-解码分离管理框架中。 - 创新的混合前缀缓存:针对智能体任务中多轮工具调用共享长上下文的痛点,设计了双层前缀缓存。逻辑层(C++)管理缓存树结构和生命周期;物理层(Python)管理实际的GPU张量。关键突破在于解决了Mamba状态复用问题——将Mamba状态槽(MambaSlot)附着在与KV缓存相同的基数树节点上,使得命中前缀时不仅能复用KV页,还能复用对应的递归状态,这对线性注意力层的缓存至关重要。
为智能体时代设计的推理框架
性能优化最终服务于功能。文章明确指出,上述设计是为智能体工作负载“量身定做”。智能体任务的特征是多轮次、长上下文共享、以及频繁的工具调用。TokenSpeed的功能直接回应了这些需求:
- 混合前缀缓存:通过上述设计,高效处理多轮对话中共享的长上下文和历史。
- 统一的状态转移:支持预填充(Prefill)与解码(Decode)阶段的状态无缝转移,确保了在复杂、多步骤任务调度过程中的连续性和效率。
- 生产级支持:其原生SPMD架构与静态编译旨在加速复杂多步骤智能体任务的执行,指向生产环境部署。
免责声明:以上内容由 AI 生成,仅供参考。