大理白族自治州网站建设_网站建设公司_HTML_seo优化
2026/1/2 6:02:04 网站建设 项目流程

ICASSP 2021

在ICASSP 2021上,某中心的文本转语音团队展示了两篇关于如何从文本合成具有语境恰当韵律(语音的节奏、重音、旋律、时长和响度)的新论文。文本转语音是一个一对多问题,同一段文本可能有多种合适的韵律演绎方式。确定文本的韵律并非易事,但可以显著提高合成语音的自然度。

这两篇论文描述的方法共享一个总体思路,但解决问题的根本方式截然不同。

Kathaka

其中一篇论文《用于神经文本转语音的韵律表示学习与上下文采样》介绍了Kathaka,一个采用新颖两阶段方法训练的模型。在第一阶段,该模型利用变分学习方法,学习训练数据中所有语音样本的韵律分布。在第二阶段,模型学习根据与语音样本关联的文本的语义和句法特征,从该分布中进行采样。

根据采用行业标准MUSHRA(带隐藏参考和锚点的多刺激)方法的听者研究,Kathaka产生的语音在自然度上比基线TTS模型提高了13.2%。

CAMP

另一篇论文《CAMP:一种上下文韵律建模的两阶段方法》介绍了CAMP,即上下文感知的韵律模型。与Kathaka类似,CAMP也采用两阶段方法进行训练。在第一阶段,CAMP以非变分方式学习训练数据中每个语音样本每个词的韵律表示。在第二阶段,模型学习根据相关文本的语义和句法特征来预测这些学习到的表示。

根据MUSHRA评估的听者研究,CAMP产生的语音在自然度上比基线TTS模型提高了26%。

Kathaka细节

由于TTS是一个一对多问题,同一文本可以有多种说法,TTS模型通常合成具有中性韵律的语音。这降低了合成语音的自然度,因为韵律与所说的内容之间没有关联。

Kathaka的两阶段学习方法通过利用文本的语义和句法来应对这个问题。Kathaka架构有两个编码器:一个是参考编码器,以语音信号的梅尔频谱图(频谱的快照)作为输入;另一个则以关联的文本(表示为音素序列,即语音的最小单位)作为输入。

基于梅尔频谱图,参考编码器输出韵律分布的参数(均值和方差,即图中的 µ 和 σ),并从该分布中选择一个样本。该样本与音素编码一起用于合成新的梅尔频谱图。该模型是一个自编码器,这意味着它被训练为输出与参考编码器输入相同的梅尔频谱图。

在推理时,梅尔频谱图当然无法作为输入,因为需要合成它们。因此,在第二步中,训练了“采样器”,它直接从文本预测韵律分布的参数。

为了编码文本,使用了一个BERT模型,该模型经过预训练以提供上下文词嵌入(将词表示为多维空间中的向量),这些嵌入捕捉了文本的语义和一些句法信息。还将图神经网络应用于文本的句法解析树,以产生仅包含文本句法信息的表示。

基于这些表示,采样器学习预测韵律分布的参数。在推理时,使用来自该分布的样本来替代参考编码器的采样点,以合成梅尔频谱图。

CAMP细节

CAMP采用类似的两步训练方法,但不是学习韵律分布,而是学习单词与韵律表示之间的特定映射,并以文本的语义和句法特征为条件。

在第一阶段,CAMP使用单词级参考编码器学习韵律的单词级表示。该编码器以梅尔频谱图作为输入,并生成语音样本韵律的单词级表示。然后,该单词级表示与构成单词的音素对齐,这些音素同样由单独的编码器编码。两组特征随后都用于合成梅尔频谱图作为输出,训练目标与参考编码器输入的梅尔频谱图相同。通过这个过程,CAMP学习了单词级的韵律表示。

在第二阶段,CAMP使用输入文本的语义和句法信息来预测第一阶段学习到的单词级韵律表示。为了编码文本,再次使用BERT嵌入,同时也使用单词级句法标签,例如:(1) 词性;(2) 词类(“开放”词如名词或动词,与“封闭”词如代词和冠词);(3) 名词结构;以及 (4) 标点结构。然后利用这些信息来预测第一阶段学习到的单词级韵律表示。

与Kathaka类似,在推理过程中,将参考编码器的韵律表示替换为由输入文本的句法和语义内容预测得到的表示。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询