大庆市网站建设_网站建设公司_前端开发_seo优化
2026/1/3 4:28:52 网站建设 项目流程

Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

Liquid AI正式推出其首款端到端音频基础模型LFM2-Audio-1.5B,以15亿参数实现与更大规模模型相当的实时语音对话能力,标志着轻量化音频交互技术取得重要突破。

近年来,语音交互技术正从传统的"语音识别-文本处理-语音合成"三段式架构向端到端一体化模型演进。随着大语言模型技术的成熟,行业对低延迟、高自然度的实时语音对话需求日益迫切,尤其是在智能助手、车载交互、远程协作等场景。据Gartner预测,到2027年,70%的智能设备交互将通过语音完成,而实时响应能力是用户体验的关键指标。

LFM2-Audio-1.5B最显著的优势在于其端到端架构设计,无需单独的语音识别(ASR)和语音合成(TTS)组件,直接实现音频到音频的闭环处理。该模型以12亿参数的LFM2模型作为多模态主干,搭配FastConformer音频编码器和RQ-transformer音频生成器,整体参数规模控制在15亿,却实现了突破性的低延迟表现。

模型支持两种独特的生成模式:交错生成(Interleaved generation)专为实时语音对话优化,将音频生成延迟降至最低,确保流畅的交谈体验;序列生成(Sequential generation)则适用于非对话场景,可灵活切换文本和语音模态,支持语音转文字、文字转语音等任务。这种双模设计使模型能适应从智能客服到内容创作的多样化需求。

技术规格方面,LFM2-Audio-1.5B采用混合卷积+注意力机制的主干网络,配备Mimi音频令牌器(8个码本),支持32,768 tokens的上下文长度,文本词汇量65,536,音频词汇量达16,392。模型以bfloat16精度运行,在保证性能的同时优化计算效率。

性能测试显示,该模型在VoiceBench基准测试中整体得分为56.78,超越70亿参数的Moshi模型(29.51)和0.6亿参数的Mini-Omni2模型(33.49)。语音识别(WER)测试中,在LibriSpeech-clean数据集上实现2.01%的词错误率,TED-LIUM数据集上达3.56%,平均WER为7.24%,展现出优异的语音理解能力。值得注意的是,相比50亿参数的Qwen2.5-Omni-3B模型,LFM2-Audio以三分之一的参数规模实现了接近的语音交互性能,参数效率显著提升。

Liquid AI提供了便捷的开发工具链,用户可通过pip安装liquid-audio包,快速部署模型或体验Gradio演示界面。示例代码显示,开发者仅需少量代码即可构建多轮语音对话系统,支持音频与文本输入的灵活切换,大大降低了语音交互应用的开发门槛。

LFM2-Audio-1.5B的推出,代表了轻量化音频大模型的重要进展。其在保持高性能的同时实现低延迟和小体积,为边缘设备部署开辟了可能。随着实时语音交互技术的成熟,我们有望看到更自然的人机对话体验在智能音箱、可穿戴设备、车载系统等场景普及。未来,随着模型在多语言支持、情感识别等方面的进一步优化,语音交互可能真正成为人机协作的主要方式,重塑我们与智能系统的沟通模式。

Liquid AI表示,LFM2-Audio-1.5B已开放试用,并提供详细文档支持。该模型采用LFM Open License v1.0许可,平衡了技术开放与知识产权保护,可能会吸引大量开发者基于此构建创新应用,推动音频AI生态的发展。

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询