Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录
1. 快速开始
1.1 启动应用
Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统,由开发者“科哥”构建并集成至 WebUI 界面,便于快速部署和使用。要启动该系统,请在项目根目录下执行以下命令:
bash start_app.sh此脚本将自动加载模型、启动服务,并监听默认端口7860。首次运行时会下载模型权重(如未缓存),请确保网络通畅。
1.2 访问地址
服务启动成功后,可通过以下两种方式访问 WebUI 界面:
本地访问:仅限本机使用
http://localhost:7860远程访问:供局域网或公网设备访问
http://<服务器IP>:7860
提示:若需远程访问,请确认防火墙已开放 7860 端口,且
start_app.sh中的启动命令包含--server_name 0.0.0.0参数,以允许外部连接。
2. 功能介绍
Fun-ASR WebUI 提供六大核心功能模块,覆盖从单文件识别到批量处理的完整语音识别流程。
| 功能 | 说明 | 适用场景 |
|---|---|---|
| 语音识别 | 基础 ASR 功能 | 单个音频文件识别 |
| 实时流式识别 | 模拟实时识别 | 麦克风录音实时转文字 |
| 批量处理 | 批量文件处理 | 多个音频文件批量识别 |
| 识别历史 | 历史记录管理 | 查看和管理识别记录 |
| VAD 检测 | 语音活动检测 | 检测音频中的语音片段 |
| 系统设置 | 系统配置 | 调整模型和参数设置 |
所有功能均通过直观的图形界面操作,无需编写代码即可完成复杂任务。
3. 语音识别
3.1 功能说明
语音识别是 Fun-ASR 的基础功能,支持上传本地音频文件或通过麦克风录制语音进行转写。
3.2 使用步骤
1. 上传音频
用户可通过两种方式输入音频: -上传文件:点击“上传音频文件”按钮选择本地.wav,.mp3,.m4a,.flac等格式文件。 -麦克风录音:点击麦克风图标开始录音,再次点击停止。
2. 配置识别参数(可选)
热词列表
用于提升特定词汇的识别准确率,每行填写一个关键词,例如:
开放时间 营业时间 客服电话目标语言
支持中文、英文、日文,默认为中文。根据实际语音内容选择对应语言。
启用文本规整 (ITN)
开启后,系统将口语表达转换为规范书面语: - “一千二百三十四” → “1234” - “二零二五年” → “2025年”
建议保持启用状态以提高输出可读性。
3. 开始识别
点击“开始识别”按钮,等待几秒至数十秒(取决于音频长度和硬件性能)后,结果将显示在下方区域。
4. 查看结果
识别完成后展示两个字段: -识别结果:原始模型输出 -规整后文本:经 ITN 处理后的标准化文本
3.3 使用技巧
- 尽量使用高质量、低噪声的音频文件
- 对专业术语添加热词可显著提升识别精度
- 若识别失败,请检查文件是否损坏或编码异常
4. 实时流式识别
4.1 功能说明
实时流式识别模拟连续语音输入场景,适用于会议记录、访谈等需要即时反馈的应用。
4.2 使用步骤
1. 准备录音环境
确保麦克风正常工作,浏览器已授予麦克风权限(Chrome/Edge 推荐)。
2. 设置参数
配置目标语言和热词列表,其余参数沿用全局设置。
3. 开始录音与识别
- 点击麦克风图标开始采集声音
- 正常说话,系统会自动分段处理
- 结束后点击“停止”,再点击“开始实时识别”
系统基于 VAD(语音活动检测)对音频流切片,并逐段调用 ASR 模型实现近似流式效果。
4.3 注意事项
⚠️ 当前版本中,Fun-ASR 模型本身不支持原生流式推理,因此“实时识别”为模拟实现。延迟受 VAD 分段策略和模型响应速度影响,适合非严格低延时场景。
5. 批量处理
5.1 功能说明
批量处理模块支持一次性上传多个音频文件并自动完成识别,极大提升工作效率。
5.2 使用步骤
1. 上传多个文件
支持多选上传或拖拽操作,最多一次处理 50 个文件。
2. 统一配置参数
- 目标语言
- 是否启用 ITN
- 共用热词列表
这些设置将应用于所有待处理文件。
3. 启动批量任务
点击“开始批量处理”按钮,系统按顺序逐一识别。
4. 查看处理进度
界面实时显示: - 当前处理文件名 - 已完成数量 / 总数 - 预估剩余时间(基于平均处理速度)
5. 导出结果
处理结束后可: - 在页面查看每条结果 - 导出为 CSV 或 JSON 格式 - 下载结构化数据文件用于后续分析
5.3 最佳实践
- 建议按语言分类分批处理
- 避免单次提交过大文件集合(>50)
- 处理期间不要关闭浏览器或中断网络连接
6. 识别历史
6.1 功能说明
识别历史模块用于存储和管理所有已完成的识别任务记录,方便追溯和复用。
6.2 主要功能
查看最近记录
默认展示最近 100 条识别历史,包含: - ID 编号 - 时间戳 - 文件名 - 识别语言 - 原始与规整文本摘要
搜索功能
支持全文检索,可在“搜索框”中输入关键词查找特定记录,系统实时过滤显示匹配项。
查看详细信息
输入记录 ID 可查看完整元数据: - 文件路径(本地存储位置) - 完整识别文本 - 规整后文本 - 使用的热词 - ITN 开关状态 - 处理耗时
删除与清空
- 删除单条记录:输入 ID 并确认删除
- 清空全部记录:点击“清空所有记录”按钮(⚠️ 不可逆操作)
6.3 数据存储机制
所有历史记录持久化保存于 SQLite 数据库中:
webui/data/history.db建议定期备份此文件以防数据丢失。
7. VAD 检测
7.1 功能说明
VAD(Voice Activity Detection)即语音活动检测,用于定位音频中存在人声的时间段,常用于预处理长录音。
7.2 应用场景
- 自动分割会议录音中的发言片段
- 过滤长时间静音部分以减少无效计算
- 辅助构建语音标注数据集
7.3 操作流程
1. 上传音频
支持任意常见格式,不限制大小(但大文件处理时间较长)。
2. 设置最大单段时长
- 单位:毫秒(ms)
- 范围:1000 ~ 60000(1秒~60秒)
- 默认值:30000(30秒)
作用:防止某一片段过长影响后续处理效率。
3. 执行检测
点击“开始 VAD 检测”按钮,系统返回如下信息: - 检测到的语音片段总数 - 每个片段的起止时间(HH:MM:SS.ms) - 片段持续时长 - (可选)各片段的识别文本
7.4 输出用途
检测结果可用于: - 切割音频生成子片段 - 构建字幕时间轴 - 分析说话人活跃度分布
8. 系统设置
8.1 计算设备选择
可根据硬件环境切换计算后端:
| 选项 | 描述 |
|---|---|
| 自动检测 | 系统优先尝试 GPU,失败则回退 CPU |
| CUDA (GPU) | 使用 NVIDIA 显卡加速(推荐) |
| CPU | 通用模式,兼容性强但速度较慢 |
| MPS | Apple Silicon Mac 设备专用 |
切换设备后需重新加载模型。
8.2 模型管理
- 模型路径:显示当前加载的模型文件路径(如
models/funasr-nano-2512) - 模型状态:指示模型是否已成功加载
8.3 性能调优参数
- 批处理大小(batch_size):默认为 1,增加可提升吞吐量但占用更多显存
- 最大长度(max_length):控制输入序列上限,默认 512 tokens
8.4 缓存与资源管理
提供两个实用工具按钮: -清理 GPU 缓存:释放 PyTorch 占用的显存 -卸载模型:从内存中移除模型实例,降低资源消耗
适用于多任务共用 GPU 的场景。
9. 常见问题
9.1 识别速度慢怎么办?
可能原因及解决方案: - 未启用 GPU 加速 → 检查是否选择了CUDA模式 - GPU 内存不足 → 清理缓存或降低 batch_size - 音频文件过大 → 分割为小段处理 - 同时运行其他高负载程序 → 关闭无关应用释放资源
9.2 识别准确率不高?
优化建议: - 提升音频质量,避免背景噪音 - 添加领域相关热词(如客服术语) - 确保选择正确的“目标语言” - 尝试不同音频格式(推荐 WAV 无损格式)
9.3 出现 CUDA out of memory 错误?
应对措施: - 点击“清理 GPU 缓存”释放内存 - 重启服务释放残留资源 - 切换至 CPU 模式临时使用 - 减少批处理大小或处理更短音频
9.4 麦克风无法使用?
排查步骤: - 浏览器是否弹出权限请求?请允许访问麦克风 - 设备是否正确连接?测试其他录音软件 - 尝试刷新页面或更换 Chrome/Edge 浏览器 - 检查操作系统隐私设置中是否禁用了麦克风
9.5 页面显示异常?
解决方法: - 强制刷新页面(Ctrl+F5 或 Cmd+Shift+R) - 清除浏览器缓存和 Cookie - 更换主流浏览器(Chrome/Firefox/Safari) - 调整窗口尺寸以触发响应式布局重绘
9.6 如何提高批量处理效率?
工程化建议: - 将同语言文件归类处理 - 使用 GPU 模式并确保显存充足 - 预先配置好热词模板 - 分批次提交(每批 ≤50 文件)
9.7 历史记录占用空间过大?
管理策略: - 定期搜索并删除无用记录 - 导出重要数据后清空数据库 - 手动备份history.db文件后替换为空库
10. 总结
本文档全面介绍了 Fun-ASR WebUI 的部署方式与功能使用细节,涵盖从本地启动到远程访问、从单文件识别到批量处理的全流程操作指南。
Fun-ASR 凭借其轻量化设计(如 Nano 版本)、多语言支持(共 31 种语言)以及丰富的交互功能,在语音转写、会议纪要、客服质检等场景中具备广泛应用潜力。结合 VAD 检测与 ITN 文本规整能力,进一步提升了输出结果的专业性和可用性。
尽管当前“实时流式识别”为模拟实现,但在大多数非实时性要求极高的业务中仍能满足需求。未来随着原生流式模型的接入,用户体验将进一步提升。
对于企业级部署,建议结合 Docker 容器化封装,并配合 Nginx 反向代理实现 HTTPS 安全访问与负载均衡。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。