论文研究 15小时前 更新于 2小时前 48

EvoSpec:通过实时词汇与参数自适应实现进化式推测解码

EvoSpec是一个针对投机解码的动态框架,通过实时词汇和参数适应解决了静态剪枝方法在专业领域或主题切换场景中接受率急剧下降的问题,它在编码、法律和医学等领域实现了草稿模型的实时演化,相比最先进的静态基线FR-Spec在EAGLE-3上提升了1.13倍的速度,同时内存开销降低了27%。

60
热度
78
质量
72
影响力

深度分析

投机解码一直是大型语言模型推理优化中的一个热门方向,它试图用更小的草稿模型来预测输出,从而减少目标模型的计算负担。但这个技术有个绕不开的难题:当词汇表越来越大,输出投影层就成了性能瓶颈。现有的静态剪枝方法虽然能缓解这个问题,但它们太“死板”了——在编程、法律或医疗这些专业领域,或者话题突然切换时,模型输出的分布会发生剧烈变化,静态方法跟不上这种动态调整,导致接受率断崖式下跌。这直接削弱了投机解码的实际应用价值,因为真实场景很少是一成不变的。

EvoSpec的出现,可以说是对这个

免责声明:以上内容由 AI 生成,仅供参考。