花莲县网站建设_网站建设公司_移动端适配_seo优化
2026/1/15 1:03:13 网站建设 项目流程

Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录

1. 快速开始

1.1 启动应用

Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统,由开发者“科哥”构建并集成至 WebUI 界面,便于快速部署和使用。要启动该系统,请在项目根目录下执行以下命令:

bash start_app.sh

此脚本将自动加载模型、启动服务,并监听默认端口7860。首次运行时会下载模型权重(如未缓存),请确保网络通畅。

1.2 访问地址

服务启动成功后,可通过以下两种方式访问 WebUI 界面:

  • 本地访问:仅限本机使用
    http://localhost:7860

  • 远程访问:供局域网或公网设备访问
    http://<服务器IP>:7860

提示:若需远程访问,请确认防火墙已开放 7860 端口,且start_app.sh中的启动命令包含--server_name 0.0.0.0参数,以允许外部连接。


2. 功能介绍

Fun-ASR WebUI 提供六大核心功能模块,覆盖从单文件识别到批量处理的完整语音识别流程。

功能说明适用场景
语音识别基础 ASR 功能单个音频文件识别
实时流式识别模拟实时识别麦克风录音实时转文字
批量处理批量文件处理多个音频文件批量识别
识别历史历史记录管理查看和管理识别记录
VAD 检测语音活动检测检测音频中的语音片段
系统设置系统配置调整模型和参数设置

所有功能均通过直观的图形界面操作,无需编写代码即可完成复杂任务。


3. 语音识别

3.1 功能说明

语音识别是 Fun-ASR 的基础功能,支持上传本地音频文件或通过麦克风录制语音进行转写。

3.2 使用步骤

1. 上传音频

用户可通过两种方式输入音频: -上传文件:点击“上传音频文件”按钮选择本地.wav,.mp3,.m4a,.flac等格式文件。 -麦克风录音:点击麦克风图标开始录音,再次点击停止。

2. 配置识别参数(可选)
热词列表

用于提升特定词汇的识别准确率,每行填写一个关键词,例如:

开放时间 营业时间 客服电话
目标语言

支持中文、英文、日文,默认为中文。根据实际语音内容选择对应语言。

启用文本规整 (ITN)

开启后,系统将口语表达转换为规范书面语: - “一千二百三十四” → “1234” - “二零二五年” → “2025年”

建议保持启用状态以提高输出可读性。

3. 开始识别

点击“开始识别”按钮,等待几秒至数十秒(取决于音频长度和硬件性能)后,结果将显示在下方区域。

4. 查看结果

识别完成后展示两个字段: -识别结果:原始模型输出 -规整后文本:经 ITN 处理后的标准化文本

3.3 使用技巧

  • 尽量使用高质量、低噪声的音频文件
  • 对专业术语添加热词可显著提升识别精度
  • 若识别失败,请检查文件是否损坏或编码异常

4. 实时流式识别

4.1 功能说明

实时流式识别模拟连续语音输入场景,适用于会议记录、访谈等需要即时反馈的应用。

4.2 使用步骤

1. 准备录音环境

确保麦克风正常工作,浏览器已授予麦克风权限(Chrome/Edge 推荐)。

2. 设置参数

配置目标语言和热词列表,其余参数沿用全局设置。

3. 开始录音与识别
  1. 点击麦克风图标开始采集声音
  2. 正常说话,系统会自动分段处理
  3. 结束后点击“停止”,再点击“开始实时识别”

系统基于 VAD(语音活动检测)对音频流切片,并逐段调用 ASR 模型实现近似流式效果。

4.3 注意事项

⚠️ 当前版本中,Fun-ASR 模型本身不支持原生流式推理,因此“实时识别”为模拟实现。延迟受 VAD 分段策略和模型响应速度影响,适合非严格低延时场景。


5. 批量处理

5.1 功能说明

批量处理模块支持一次性上传多个音频文件并自动完成识别,极大提升工作效率。

5.2 使用步骤

1. 上传多个文件

支持多选上传或拖拽操作,最多一次处理 50 个文件。

2. 统一配置参数
  • 目标语言
  • 是否启用 ITN
  • 共用热词列表

这些设置将应用于所有待处理文件。

3. 启动批量任务

点击“开始批量处理”按钮,系统按顺序逐一识别。

4. 查看处理进度

界面实时显示: - 当前处理文件名 - 已完成数量 / 总数 - 预估剩余时间(基于平均处理速度)

5. 导出结果

处理结束后可: - 在页面查看每条结果 - 导出为 CSV 或 JSON 格式 - 下载结构化数据文件用于后续分析

5.3 最佳实践

  • 建议按语言分类分批处理
  • 避免单次提交过大文件集合(>50)
  • 处理期间不要关闭浏览器或中断网络连接

6. 识别历史

6.1 功能说明

识别历史模块用于存储和管理所有已完成的识别任务记录,方便追溯和复用。

6.2 主要功能

查看最近记录

默认展示最近 100 条识别历史,包含: - ID 编号 - 时间戳 - 文件名 - 识别语言 - 原始与规整文本摘要

搜索功能

支持全文检索,可在“搜索框”中输入关键词查找特定记录,系统实时过滤显示匹配项。

查看详细信息

输入记录 ID 可查看完整元数据: - 文件路径(本地存储位置) - 完整识别文本 - 规整后文本 - 使用的热词 - ITN 开关状态 - 处理耗时

删除与清空
  • 删除单条记录:输入 ID 并确认删除
  • 清空全部记录:点击“清空所有记录”按钮(⚠️ 不可逆操作)

6.3 数据存储机制

所有历史记录持久化保存于 SQLite 数据库中:

webui/data/history.db

建议定期备份此文件以防数据丢失。


7. VAD 检测

7.1 功能说明

VAD(Voice Activity Detection)即语音活动检测,用于定位音频中存在人声的时间段,常用于预处理长录音。

7.2 应用场景

  • 自动分割会议录音中的发言片段
  • 过滤长时间静音部分以减少无效计算
  • 辅助构建语音标注数据集

7.3 操作流程

1. 上传音频

支持任意常见格式,不限制大小(但大文件处理时间较长)。

2. 设置最大单段时长
  • 单位:毫秒(ms)
  • 范围:1000 ~ 60000(1秒~60秒)
  • 默认值:30000(30秒)

作用:防止某一片段过长影响后续处理效率。

3. 执行检测

点击“开始 VAD 检测”按钮,系统返回如下信息: - 检测到的语音片段总数 - 每个片段的起止时间(HH:MM:SS.ms) - 片段持续时长 - (可选)各片段的识别文本

7.4 输出用途

检测结果可用于: - 切割音频生成子片段 - 构建字幕时间轴 - 分析说话人活跃度分布


8. 系统设置

8.1 计算设备选择

可根据硬件环境切换计算后端:

选项描述
自动检测系统优先尝试 GPU,失败则回退 CPU
CUDA (GPU)使用 NVIDIA 显卡加速(推荐)
CPU通用模式,兼容性强但速度较慢
MPSApple Silicon Mac 设备专用

切换设备后需重新加载模型。

8.2 模型管理

  • 模型路径:显示当前加载的模型文件路径(如models/funasr-nano-2512
  • 模型状态:指示模型是否已成功加载

8.3 性能调优参数

  • 批处理大小(batch_size):默认为 1,增加可提升吞吐量但占用更多显存
  • 最大长度(max_length):控制输入序列上限,默认 512 tokens

8.4 缓存与资源管理

提供两个实用工具按钮: -清理 GPU 缓存:释放 PyTorch 占用的显存 -卸载模型:从内存中移除模型实例,降低资源消耗

适用于多任务共用 GPU 的场景。


9. 常见问题

9.1 识别速度慢怎么办?

可能原因及解决方案: - 未启用 GPU 加速 → 检查是否选择了CUDA模式 - GPU 内存不足 → 清理缓存或降低 batch_size - 音频文件过大 → 分割为小段处理 - 同时运行其他高负载程序 → 关闭无关应用释放资源

9.2 识别准确率不高?

优化建议: - 提升音频质量,避免背景噪音 - 添加领域相关热词(如客服术语) - 确保选择正确的“目标语言” - 尝试不同音频格式(推荐 WAV 无损格式)

9.3 出现 CUDA out of memory 错误?

应对措施: - 点击“清理 GPU 缓存”释放内存 - 重启服务释放残留资源 - 切换至 CPU 模式临时使用 - 减少批处理大小或处理更短音频

9.4 麦克风无法使用?

排查步骤: - 浏览器是否弹出权限请求?请允许访问麦克风 - 设备是否正确连接?测试其他录音软件 - 尝试刷新页面或更换 Chrome/Edge 浏览器 - 检查操作系统隐私设置中是否禁用了麦克风

9.5 页面显示异常?

解决方法: - 强制刷新页面(Ctrl+F5 或 Cmd+Shift+R) - 清除浏览器缓存和 Cookie - 更换主流浏览器(Chrome/Firefox/Safari) - 调整窗口尺寸以触发响应式布局重绘

9.6 如何提高批量处理效率?

工程化建议: - 将同语言文件归类处理 - 使用 GPU 模式并确保显存充足 - 预先配置好热词模板 - 分批次提交(每批 ≤50 文件)

9.7 历史记录占用空间过大?

管理策略: - 定期搜索并删除无用记录 - 导出重要数据后清空数据库 - 手动备份history.db文件后替换为空库


10. 总结

本文档全面介绍了 Fun-ASR WebUI 的部署方式与功能使用细节,涵盖从本地启动到远程访问、从单文件识别到批量处理的全流程操作指南。

Fun-ASR 凭借其轻量化设计(如 Nano 版本)、多语言支持(共 31 种语言)以及丰富的交互功能,在语音转写、会议纪要、客服质检等场景中具备广泛应用潜力。结合 VAD 检测与 ITN 文本规整能力,进一步提升了输出结果的专业性和可用性。

尽管当前“实时流式识别”为模拟实现,但在大多数非实时性要求极高的业务中仍能满足需求。未来随着原生流式模型的接入,用户体验将进一步提升。

对于企业级部署,建议结合 Docker 容器化封装,并配合 Nginx 反向代理实现 HTTPS 安全访问与负载均衡。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询