清远市网站建设_网站建设公司_Linux_seo优化
2025/12/29 18:31:51 网站建设 项目流程

对话式AI

声学事件分类

  • FedRPO:用于声学事件分类的联邦松弛帕累托优化
    • Meng Feng, Chieh-Chi Kao, Qingming Tang, Amit Solomon, Viktor Rozgic, Chao Wang
  • 用于高效音频分类的多尺度音频频谱图Transformer
    • Wentao Zhu, Mohamed Omar
  • 基于Transformer的少样本学习任务生物声学声音事件检测
    • Liwen You, Erika Pelaez Coyotl, Suren Gunturu, Maarten Van Segbroeck
  • 权重共享超网络:在设备限制下搜索专用的声学事件分类网络
    • Guan-Ting Lin, Qingming Tang, Chieh-Chi Kao, Viktor Rozgic, Chao Wang

自动语音识别

  • 基于图的标签传播的跨话语ASR重打分
    • Srinath Tankasala, Long Chen, Andreas Stolcke, Anirudh Raju, Shally Deng, Chander Chandak, Aparna Khare, Roland Maas, Venkatesh Ravichandran
  • 用于统一流式和非流式Conformer ASR的动态分块卷积
    • Xilai Li, Goeric Huybrechts, Srikanth Ronanki, Jeff Farris, Sravan Bodapati
  • 利用外部非策略声学目录进行领域自适应,以实现可扩展的上下文端到端自动语音识别
    • David M. Chan, Shalini Ghosh, Ariya Rastrow, Björn Hoffmeister
  • 门控上下文适配器:用于神经转换器中的选择性上下文偏置
    • Anastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant Strimel, Feng-Ju (Claire) Chang, Ariya Rastrow, Nathan Susanj, Athanasios Mouchtaris
  • 屏蔽偏置:利用内部语言模型估计改进基于CTC的ASR的领域自适应泛化能力
    • Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jason Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff
  • 用于端到端ASR自适应的动态文本检索
    • Bolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko
  • 语音识别神经转换器中稳健的声学和语义上下文偏置
    • Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant Strimel, Ross McGowan, Athanasios Mouchtaris

代码生成

  • 对话式文本到SQL:现状探索与未来挑战
    • Sree Hari Krishnan Parthasarathi, Lu Zeng, Dilek Hakkani-Tür

常识推理

  • CLICKER:基于注意力的跨语言常识知识迁移
    • Ruolin Su, Zhongkai Sun, Sixing Lu, Chengyuan Ma, Chenlei Guo

持续学习

  • 量化持续联邦学习中的灾难性遗忘
    • Christophe Dupuy, Jimit Majmudar, Jixuan Wang, Tanya Roosta, Rahul Gupta, Clement Chung, Jie Ding, Salman Avestimehr

端点检测

  • 利用深度上下文多臂老虎机进行自适应端点检测
    • Do June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He, Venkatesh Ravichandran, Viet Anh Trinh
  • 实现准确实时的语音结束估计
    • Yifeng Fan, Colin Vaz, Di He, Jahn Heymann, Viet Anh Trinh, Zhe Zhang, Venkatesh Ravichandran

关键词唤醒

  • 用于语音识别中高效唤醒词检测的双注意力神经转换器

    • Saumya Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Anastasios Alexandridis, Grant Strimel, Ross McGowan, Ariya Rastrow, Feng-Ju Chang, Athanasios Mouchtaris, Siegfried Kunzmann
  • 用于设备端关键词检测的定点量化感知训练

    • Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano, Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu
  • 用于轻量级Transformer关键词检测的自监督语音表征学习

    • Chenyang Gao, Yue Gu, Francesco Caliva, Yuzong Liu
  • 用于关键词检测的小型可瘦身网络

    • Zuhaib Akhtar, Mohammad Omar Khursheed, Dongsu Du, Yuzong Liu

语言学习

  • 用于发音错误诊断的音素RNN转换器
    • Daniel Zhang, Soumya Saha, Sarah Campbell

机器学习

  • 先剪枝后蒸馏:基于重要性采样的数据集蒸馏
    • Anirudh Sundar, Gokce Keskin, Chander Chandak, I-Fan Chen, Pegah Ghahremani, Shalini Ghosh
  • 偏置项在点积注意力机制中的作用
    • Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tür

自然语言理解

  • 蒸馏-量化-微调:利用大型教师模型实现设备端高效多语言NLU的低占用空间
    • Pegah Kharazmi, Zhewei Zhao, Clement Chung, Samridhi Choudhary
  • 金字塔动态推理:通过早期退出加速推理
    • Ershad Banijamali, Pegah Kharazmi, Sepehr Eghbali, Jixuan Wang, Clement Chung, Samridhi Choudhary

个性化语音识别

  • 对话行为引导的上下文适配器用于个性化语音识别

    • Feng-Ju (Claire) Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai Wei, Grant Strimel, Ross McGowan
  • PROCTER:神经转换器中用于个性化语音识别的发音感知上下文适配器

    • Rahul Pandey, Roger Ren, Qi Luo, Jing Liu, Ariya Rastrow, Ankur Gandhe, Denis Filimonov, Grant Strimel, Andreas Stolcke, Ivan Bulyko
  • 用于神经转换器个性化语音识别的槽触发上下文偏置

    • Sibo Tong, Philip Harding, Simon Wiesler

查询重写

  • KG-ECO:用于查询重写的知识图谱增强实体校正
    • Jason Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen, Yang Liu, Xing Fan, Chenlei Guo

自学习

  • 用于语音识别的联邦弱监督自学习
    • Milind Rao, Gopinath Chennupati, Gautam Tiwari, Anit Kumar Sahu, Anirudh Raju, Ariya Rastrow, Jasha Droppo
  • 通过错误检测、归因和再训练实现自我修复
    • Ansel MacLaughlin, Anna Rumshisky, Rinat Khaziev, Anil Ramakrishna, Yuval Merhav, Rahul Gupta

信号处理

  • 统一实时个性化和非个性化语音增强的框架

    • Zhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis
  • 用于人类活动识别的增强鲁棒自监督学习

    • Cong Xu, Yuhang Li, Dae Lee, Andrew Park, Hongda Mao, Huyen Do, Jonathan Chung, Dinesh Nair
  • 基于生成建模的流形学习,用于自适应滤波指导

    • Karim Helwani, Paris Smaragdis, Michael M. Goodwin
  • SPADE:用于声学解缠结的自监督预训练

    • John Harvill, Jarred Barber, Arun Nair, Ramin Pishehvar

口语理解

  • 使用联合CTC损失和自监督预训练声学编码器的端到端口语理解
    • Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung
  • 探索端到端语音模型中的子群性能
    • Alkis Koudounas, Eliana Pastor, Giuseppe Attanasio, Vittorio Mazzia, Manuel Giollo, Thomas Gueudre, Luca Cagliero, Luca de Alfaro, Elena Baralis, Daniele Amberti
  • 用于超低占用空间应用的多语言端到端口语理解
    • Markus Mueller, Anastasios Alexandridis, Zach Trozenski, Joel Whiteman, Grant Strimel, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann

文本到语音

  • 逐帧WaveGAN:具有极低计算复杂度的时域高速对抗声码器
    • Ahmed Mustafa, Jean-Marc Valin, Jan Buethe, Paris Smaragdis, Mike Goodwin
  • 无需特定口音TTS前端的口音低资源建模
    • Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu

视频

  • ModEFormer:使用Transformer保持模态的音频-视频同步嵌入
    • Akash Gupta, Rohun Tripathi, Wondong Jang
  • 用于视频表示学习的多尺度组合约束
    • Georgios Paraskevopoulos, Chandrashekhar Lavania, Lovish Chum, Shiva Sundaram

语音通信

  • 使用率失真优化变分自编码器进行语音的低比特率冗余编码
    • Jean-Marc Valin, Jan Buethe, Ahmed Mustafa
      更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
      对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询