Fun-ASR 是通义实验室推出的端到端语音识别大模型,是基于数千万小时真实语音数据训练而成,具备强大的上下文理解能力与行业适应性,支持低延迟实时听写, 并且覆盖 31 个语种。 在教育、金融等垂直领域表现出色,能准确识别专业术语与行业表达,有效应对"幻觉"生成和语种混淆等挑战,实现"听得清、懂其意、写得准"。
Fun-ASR-Nano优点
轻量但不"缩水"
Nano 系列在保证识别效果可用的前提下,对模型结构进行了优化,在性能与资源消耗之间取得了不错的平衡。
与 FunASR 框架天然适配
无需复杂配置,即可直接使用 FunASR 提供的推理接口,减少重复造轮子的成本。
工程友好
无论是 Python 服务,还是后端系统集成,都能较为顺滑地接入,适合工程师快速落地。
Fun-ASR-Nano应用场景
语音指令识别
智能客服前端转写
教育类语音应用
Demo / PoC 阶段快速验证
支持语种
支持中文、英文、日文。中文包含7 种方言(吴语、粤语、闽语、客家话、赣语、湘语、晋语)。26 种地域口音支持(河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏)。英文、日文涵盖多种地域口音。额外功能包括歌词识别与说唱语音识别。
HuggingFace模型库
https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512
【FunAudioLLM/Fun-ASR-Nano】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【FunAudioLLM/Fun-ASR-Nano】带来的精彩体验吧!
项目入口
https://open.virtaicloud.com/web/project/detail/656762392071598080
视频教程
启动开发环境
进入【FunAudioLLM/Fun-ASR-Nano】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。
配置完成,点击进入开发环境,根据主页项目介绍进行部署。
使用方法
在gemini/code中找到使用说明,选中使用方法单元格,点击运行。
等待生成local URL,右侧添加端口7860。
项目使用方法
示例展示
➫温馨提示:完成项目后,记得及时关闭开发环境,以免继续产生费用!