朝阳市网站建设_网站建设公司_网站开发_seo优化
2025/12/22 12:13:45 网站建设 项目流程

智能助手如何判断你正在与它对话
利用语义内容提升仅基于声学模型的设备导向语音检测性能。

免唤醒词模式让与智能助手的交互更加自然。启用此模式后,用户可以先询问“今天的天气怎么样?”,接着直接说“明天呢?”,而无需重复唤醒词“Alexa”。省略唤醒词意味着支持智能助手的设备必须区分出哪些语音是指向设备的,哪些不是。换句话说,它们需要区分像“明天呢?”这样的后续追问,与孩子们的喊叫声或电视里的声音。

过去,某中心的研究人员通过利用智能助手语音识别系统的组件,显著改善了设备导向语音的检测。在一篇于本周(以线上形式)在国际声学、语音与信号处理会议上展示的论文中,展示了如何通过增加关于客户话语的语义和句法特征信息来扩展这些改进。在论文报告的实验中,机器学习模型在等错误率(即假阳性和假阴性率设置相等时的错误率)方面,相比表现最佳的基线模型实现了14%的改进。

破碎的句法
指向智能助手的请求在主题、内容、对话流程以及句法和语义结构方面与普通的日常对话不同。例如,非设备导向的语音通常由“break at a bigger”或“weather talking about hal”这样的片段组成。这些片段的破碎句法是机器学习系统应该能够识别的特征。

当然,后续话语也可能是片段化的:例如,用户在询问“Alexa,今天天气怎么样?”之后,可能会接着说“明天呢?”。但当这些片段与其前置问题结合时,通常会获得更好的连贯性。因此,作为模型的输入,同时使用了当前话语和它之前的话语。

模型的输入由当前对话轮次和前一对话轮次组成;各轮次由特殊的分隔符标记()界定。输入的每个单词被单独“嵌入”,即转换为捕获其语义内容信息的固定长度向量。这些向量与代表自动语音识别系统对其转录结果置信度的特征相结合。

其他话语(“谢谢”、“停止”、“好的”)即使与其前置话语结合,仍然具有模糊性。因此,系统不仅仅依赖于高层次的语义和句法特征。还使用了代表语音识别器对客户话语转录结果置信度的声学特征。这是智能助手团队在其检测设备导向性的最先进系统中采用方法的轻量级版本。

其基本见解是:如果语音识别器对其转录结果的置信度低,那么它很可能在处理与其训练数据不同的语句。而由于它是在设备导向语句上训练的,与训练数据不同的语句更有可能是非设备导向的。

词序的重要性
因为添加的语义特征旨在利用句子结构,所以词的顺序很重要。因此,系统使用了一种称为长短期记忆网络的机器学习模型。LSTM按顺序处理输入,以便每个输出都考虑到它之前的所有输入和输出。对于语言输入,LSTM一次处理一个词,在每个新词后产生一个新的输出。最终的输出编码了其之前词序列的信息。

注意力机制
在许多自然语言理解场景中,如果LSTM还能结合注意力机制,会工作得更好。本质上,注意力机制决定了输入的每个词应该对最终输出贡献多少权重。例如,在许多应用中,实体名称比冠词或介词更重要;注意力机制因此会给它们分配更大的权重。使用注意力机制来帮助模型锁定输入中那些对区分设备导向和非设备导向语音特别有用的词。

迁移学习
最后,还使用迁移学习来改进模型的性能。即在多轮次交互上微调模型之前,先在单轮次交互数据上对模型进行预训练。在预训练期间,同时使用正例和负例,因此网络将学习设备导向和非设备导向语音的特征。

在实验中,将系统与最先进的仅使用声学的设备导向语音识别模型,以及一个使用深度神经网络而非LSTM的本模型变体进行了比较。为了使比较公平,仅使用声学的模型也在用于迁移学习的预训练(单轮次交互)数据集和微调(多轮次交互)数据集上进行了训练。

DNN以一种捕获语句中所有词语义信息但不反映其顺序的方式表示输入。其性能显著低于仅使用声学的基线——等错误率为19.2%,而基线为10.6%。但提出的LSTM模型将等错误率降低到9.1%,提升了14%。

在论文中,还报告了一些关于半监督学习的初步实验的有希望的结果,其中训练好的网络自身为大量未标记数据打标签,这些数据随后又被用来重新训练网络。计划在未来的工作中对这些实验进行跟进。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询