在基于提示的文本到语音模型中实现细粒度与语句内说话风格控制
本文提出两种新技术,分别实现文本到语音模型中跨语句的风格插值和语句内的风格过渡。通过嵌入空间插值实现平滑的跨语句风格转换,并针对自回归解码器中早期令牌主导生成的注意力偏置问题,引入KV缓存交换和滑动窗口注意力掩码,从而支持语句内随时间变化的风格转变,提升了精细控制能力。
65
热度
85
质量
70
影响力
深度分析
文章类型:研究突破
风格控制的突破性进展
当前提示词驱动的TTS模型在说话风格控制上存在两个根本局限:只能在整个语句中应用统一的全局风格,且缺乏精细的逐属性控制。本文提出的方案直接瞄准了这两个痛点,旨在实现连续的风格属性插值和语句内的动态风格过渡。
- 跨语句插值:该方法通过计算对比性风格提示在嵌入空间中的方向向量进行简单插值。实验数据显示,其在性别转换任务上实现了99-100%的成功率,同时能产生高达36 Hz的音高变化和每秒1.6个音节的语速变化,证明了方法在连续属性控制上的有效性。
- 语句内过渡:研究发现并定位了自回归TTS解码器中的一个关键问题——强烈的注意力偏置,即模型过度关注早期令牌,导致初始音频的生成主导了后续输出。为解决此问题,作者引入了KV缓存交换和滑动窗口注意力掩码技术。
注意力机制的关键发现与解决
本文的核心洞察不在于提出一个全新的模型架构,而在于对现有自回归TTS解码器内部工作机制的关键缺陷进行了诊断并给出了针对性的工程化解法。
- 问题根源:直接揭示了在解码过程中,模型存在“注意力惯性”,早期音频实现的特征会过度影响后续生成,使得在语句中途改变风格变得困难。这是实现语句内动态过渡的主要障碍。
- 技术应对:
- KV缓存交换:这似乎是一种在解码过程中干预注意力历史信息的方法,旨在打破早期信息对当前步的绝对控制。
- 滑动窗口注意力掩码:通过限制模型回顾的上下文范围,强制模型更多地关注近期的生成内容,从而为引入新的风格特征创造条件。
- 实验验证:该方案在语句内过渡任务中,保持了0.81-0.91的说话人相似度,并获得了3.48-4.48的感知平滑度分数(预计在1-5分量表上),表明在实现风格变化的同时,较好地维持了音质与连贯性。
免责声明:以上内容由 AI 生成,仅供参考。