济源市网站建设_网站建设公司_jQuery_seo优化
2026/1/18 12:27:06 网站建设 项目流程

Interspeech 2022:跨学科研究的增长

循环训练语音合成与语音识别模型、利用语言理解来改善语音韵律,这些只是语音相关领域交叉融合的几个例子。


当 Penny Karanasou 在 2010 年首次于 Interspeech 上发表论文时,她还是一名计算机科学的博士生,论文主题是自动语音识别。六年后,她加入了某中心,成为自然语言理解小组的一员。在过去的两年半里,她一直从事文本到语音的研究工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有亲身体验。

她也与 Interspeech 有着深厚的渊源。今年的会议是她第二次担任程序委员会的分区主席,也是她第七次主持会议环节。考虑到她在对话式 AI 领域广泛的经验,最令她着迷的领域趋势之一是自动语音识别、自然语言理解和文本到语音之间日益增长的重叠,这或许是很自然的。

“近年来,随着新开发的神经技术,我们开始看到不同语音领域之间有越来越多的重叠和协同作用,”Karanasou 说,“一个方向是实际上可以将 TTS 用于 ASR,即使用 TTS 系统生成合成数据进行数据增强。在英语中,我们可能需要特定领域的数据,或用于词汇表外单词的数据,或用于数据分布长尾中不常见示例的数据。但这也是低资源语言的一种有用方法。”

“另一种结合 ASR 和 TTS 的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式训练。你训练一个系统,并用其输出来训练另一个。然后使用某种置信度指标或其他选择方法来选择保留的数据进行新一轮训练。进行这种循环训练实际上可以改善两个任务。”

“近年来我们观察到的另一件事是,两个领域有共同的方法。在 TTS 和 ASR 中,整个社区都在朝着全神经端到端系统发展。我们还看到上下文的加入,以实现长格式的 ASR 和 TTS。因此,不仅仅关注一个句子,而是考虑对话中先前所说的更多上下文——或任何类型的上下文。”

语言理解与语音

“我认为这也是 NLU 产生影响的地方,”Karanasou 说,“随着所有这些语言模型的出现——比如最著名的 BERT——我们看到 NLU 被整合到语音领域中。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文及句法和语义信息。例如,通过正确的句法和语义信息,我们也可以在 TTS 中获得更好的韵律。”

正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科间交叉融合的一个例子。语言模型对单词序列的概率进行编码,而一个单词与其他单词的共现被证明是其含义的良好指标。但在它们被引入 NLU 之前,语言模型早已被用于 ASR 中,以区分相同声音序列的不同解释(一个经典的例子是 “Pulitzer Prize” 和 “pullet surprise”)。

“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT 出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。”

Interspeech 一直都有关于 ASR 和 TTS 的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但 Karanasou 指出,对话式 AI 子领域之间日益增长的重叠的另一个迹象是,越来越多的 Interspeech 论文关注以语音作为输入并以端到端方式执行下游计算的模型。这包括关于口语理解、口语翻译和口语对话的研究。

“传统上,我们会在 NLP 会议上看到这些关于口语理解的环节,”Karanasou 说,“但现在我们在像 Interspeech 这样的会议上看到了更多的 SLU 环节。”

“说了这么多,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是 TTS 的相反任务,但你需要处理不同的数据和不同的评估技术。例如,TTS 主要基于主观评估,而 ASR 则最小化词错误率,所以是客观评估。”

然而,对 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。

“我认为人们应该阅读其他领域的论文,”她说,“机器翻译当然是 NLU 的一部分。但越来越多的是,我们甚至从图像处理、计算机视觉中获得想法。理解另一个领域发生的事情并将其转移到你自己的领域,这实际上是非常丰富的。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询