花莲县网站建设_网站建设公司_移动端适配_seo优化-南阳市网站建设公司

Fun-ASR系统部署教程：本地与远程访问（IP:7860）配置全记录

1. 快速开始

1.1 启动应用

Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统，由开发者“科哥”构建并集成至 WebUI 界面，便于快速部署和使用。要启动该系统，请在项目根目录下执行以下命令：

bash start_app.sh

此脚本将自动加载模型、启动服务，并监听默认端口7860。首次运行时会下载模型权重（如未缓存），请确保网络通畅。

1.2 访问地址

服务启动成功后，可通过以下两种方式访问 WebUI 界面：

本地访问：仅限本机使用
http://localhost:7860
远程访问：供局域网或公网设备访问
http://<服务器IP>:7860

提示：若需远程访问，请确认防火墙已开放 7860 端口，且start_app.sh中的启动命令包含--server_name 0.0.0.0参数，以允许外部连接。

2. 功能介绍

Fun-ASR WebUI 提供六大核心功能模块，覆盖从单文件识别到批量处理的完整语音识别流程。

功能	说明	适用场景
语音识别	基础 ASR 功能	单个音频文件识别
实时流式识别	模拟实时识别	麦克风录音实时转文字
批量处理	批量文件处理	多个音频文件批量识别
识别历史	历史记录管理	查看和管理识别记录
VAD 检测	语音活动检测	检测音频中的语音片段
系统设置	系统配置	调整模型和参数设置

所有功能均通过直观的图形界面操作，无需编写代码即可完成复杂任务。

3. 语音识别

3.1 功能说明

语音识别是 Fun-ASR 的基础功能，支持上传本地音频文件或通过麦克风录制语音进行转写。

3.2 使用步骤

1. 上传音频

用户可通过两种方式输入音频： -上传文件：点击“上传音频文件”按钮选择本地.wav,.mp3,.m4a,.flac等格式文件。 -麦克风录音：点击麦克风图标开始录音，再次点击停止。

2. 配置识别参数（可选）

热词列表

用于提升特定词汇的识别准确率，每行填写一个关键词，例如：

开放时间 营业时间 客服电话

目标语言

支持中文、英文、日文，默认为中文。根据实际语音内容选择对应语言。

启用文本规整 (ITN)

开启后，系统将口语表达转换为规范书面语： - “一千二百三十四” → “1234” - “二零二五年” → “2025年”

建议保持启用状态以提高输出可读性。

3. 开始识别

点击“开始识别”按钮，等待几秒至数十秒（取决于音频长度和硬件性能）后，结果将显示在下方区域。

4. 查看结果

识别完成后展示两个字段： -识别结果：原始模型输出 -规整后文本：经 ITN 处理后的标准化文本

3.3 使用技巧

尽量使用高质量、低噪声的音频文件
对专业术语添加热词可显著提升识别精度
若识别失败，请检查文件是否损坏或编码异常

4. 实时流式识别

4.1 功能说明

实时流式识别模拟连续语音输入场景，适用于会议记录、访谈等需要即时反馈的应用。

4.2 使用步骤

1. 准备录音环境

确保麦克风正常工作，浏览器已授予麦克风权限（Chrome/Edge 推荐）。

2. 设置参数

配置目标语言和热词列表，其余参数沿用全局设置。

3. 开始录音与识别

点击麦克风图标开始采集声音
正常说话，系统会自动分段处理
结束后点击“停止”，再点击“开始实时识别”

系统基于 VAD（语音活动检测）对音频流切片，并逐段调用 ASR 模型实现近似流式效果。

4.3 注意事项

⚠️ 当前版本中，Fun-ASR 模型本身不支持原生流式推理，因此“实时识别”为模拟实现。延迟受 VAD 分段策略和模型响应速度影响，适合非严格低延时场景。

5. 批量处理

5.1 功能说明

批量处理模块支持一次性上传多个音频文件并自动完成识别，极大提升工作效率。

5.2 使用步骤

1. 上传多个文件

支持多选上传或拖拽操作，最多一次处理 50 个文件。

2. 统一配置参数

目标语言
是否启用 ITN
共用热词列表

这些设置将应用于所有待处理文件。

3. 启动批量任务

点击“开始批量处理”按钮，系统按顺序逐一识别。

4. 查看处理进度

界面实时显示： - 当前处理文件名 - 已完成数量 / 总数 - 预估剩余时间（基于平均处理速度）

5. 导出结果

处理结束后可： - 在页面查看每条结果 - 导出为 CSV 或 JSON 格式 - 下载结构化数据文件用于后续分析

5.3 最佳实践

建议按语言分类分批处理
避免单次提交过大文件集合（>50）
处理期间不要关闭浏览器或中断网络连接

6. 识别历史

6.1 功能说明

识别历史模块用于存储和管理所有已完成的识别任务记录，方便追溯和复用。

6.2 主要功能

查看最近记录

默认展示最近 100 条识别历史，包含： - ID 编号 - 时间戳 - 文件名 - 识别语言 - 原始与规整文本摘要

搜索功能

支持全文检索，可在“搜索框”中输入关键词查找特定记录，系统实时过滤显示匹配项。

查看详细信息

输入记录 ID 可查看完整元数据： - 文件路径（本地存储位置） - 完整识别文本 - 规整后文本 - 使用的热词 - ITN 开关状态 - 处理耗时

删除与清空

删除单条记录：输入 ID 并确认删除
清空全部记录：点击“清空所有记录”按钮（⚠️ 不可逆操作）

6.3 数据存储机制

所有历史记录持久化保存于 SQLite 数据库中：

webui/data/history.db

建议定期备份此文件以防数据丢失。

7. VAD 检测

7.1 功能说明

VAD（Voice Activity Detection）即语音活动检测，用于定位音频中存在人声的时间段，常用于预处理长录音。

7.2 应用场景

自动分割会议录音中的发言片段
过滤长时间静音部分以减少无效计算
辅助构建语音标注数据集

7.3 操作流程

1. 上传音频

支持任意常见格式，不限制大小（但大文件处理时间较长）。

2. 设置最大单段时长

单位：毫秒（ms）
范围：1000 ~ 60000（1秒~60秒）
默认值：30000（30秒）

作用：防止某一片段过长影响后续处理效率。

3. 执行检测

点击“开始 VAD 检测”按钮，系统返回如下信息： - 检测到的语音片段总数 - 每个片段的起止时间（HH:MM:SS.ms） - 片段持续时长 - （可选）各片段的识别文本

7.4 输出用途

检测结果可用于： - 切割音频生成子片段 - 构建字幕时间轴 - 分析说话人活跃度分布

8. 系统设置

8.1 计算设备选择

可根据硬件环境切换计算后端：

选项	描述
自动检测	系统优先尝试 GPU，失败则回退 CPU
CUDA (GPU)	使用 NVIDIA 显卡加速（推荐）
CPU	通用模式，兼容性强但速度较慢
MPS	Apple Silicon Mac 设备专用

切换设备后需重新加载模型。

8.2 模型管理

模型路径：显示当前加载的模型文件路径（如models/funasr-nano-2512）
模型状态：指示模型是否已成功加载

8.3 性能调优参数

批处理大小（batch_size）：默认为 1，增加可提升吞吐量但占用更多显存
最大长度（max_length）：控制输入序列上限，默认 512 tokens

8.4 缓存与资源管理

提供两个实用工具按钮： -清理 GPU 缓存：释放 PyTorch 占用的显存 -卸载模型：从内存中移除模型实例，降低资源消耗

适用于多任务共用 GPU 的场景。

9. 常见问题

9.1 识别速度慢怎么办？

可能原因及解决方案： - 未启用 GPU 加速 → 检查是否选择了CUDA模式 - GPU 内存不足 → 清理缓存或降低 batch_size - 音频文件过大 → 分割为小段处理 - 同时运行其他高负载程序 → 关闭无关应用释放资源

9.2 识别准确率不高？

优化建议： - 提升音频质量，避免背景噪音 - 添加领域相关热词（如客服术语） - 确保选择正确的“目标语言” - 尝试不同音频格式（推荐 WAV 无损格式）

9.3 出现 CUDA out of memory 错误？

应对措施： - 点击“清理 GPU 缓存”释放内存 - 重启服务释放残留资源 - 切换至 CPU 模式临时使用 - 减少批处理大小或处理更短音频

9.4 麦克风无法使用？

排查步骤： - 浏览器是否弹出权限请求？请允许访问麦克风 - 设备是否正确连接？测试其他录音软件 - 尝试刷新页面或更换 Chrome/Edge 浏览器 - 检查操作系统隐私设置中是否禁用了麦克风

9.5 页面显示异常？

解决方法： - 强制刷新页面（Ctrl+F5 或 Cmd+Shift+R） - 清除浏览器缓存和 Cookie - 更换主流浏览器（Chrome/Firefox/Safari） - 调整窗口尺寸以触发响应式布局重绘

9.6 如何提高批量处理效率？

工程化建议： - 将同语言文件归类处理 - 使用 GPU 模式并确保显存充足 - 预先配置好热词模板 - 分批次提交（每批 ≤50 文件）

9.7 历史记录占用空间过大？

管理策略： - 定期搜索并删除无用记录 - 导出重要数据后清空数据库 - 手动备份history.db文件后替换为空库

10. 总结

本文档全面介绍了 Fun-ASR WebUI 的部署方式与功能使用细节，涵盖从本地启动到远程访问、从单文件识别到批量处理的全流程操作指南。

Fun-ASR 凭借其轻量化设计（如 Nano 版本）、多语言支持（共 31 种语言）以及丰富的交互功能，在语音转写、会议纪要、客服质检等场景中具备广泛应用潜力。结合 VAD 检测与 ITN 文本规整能力，进一步提升了输出结果的专业性和可用性。

尽管当前“实时流式识别”为模拟实现，但在大多数非实时性要求极高的业务中仍能满足需求。未来随着原生流式模型的接入，用户体验将进一步提升。

对于企业级部署，建议结合 Docker 容器化封装，并配合 Nginx 反向代理实现 HTTPS 安全访问与负载均衡。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

花莲县网站建设_网站建设公司_移动端适配_seo优化

Fun-ASR系统部署教程：本地与远程访问（IP:7860）配置全记录

1. 快速开始

1.1 启动应用

1.2 访问地址

2. 功能介绍

3. 语音识别

3.1 功能说明

3.2 使用步骤

1. 上传音频

2. 配置识别参数（可选）

热词列表

目标语言

启用文本规整 (ITN)

3. 开始识别

4. 查看结果

3.3 使用技巧

4. 实时流式识别

4.1 功能说明

4.2 使用步骤

1. 准备录音环境

2. 设置参数

3. 开始录音与识别

4.3 注意事项

5. 批量处理

5.1 功能说明

5.2 使用步骤

1. 上传多个文件

2. 统一配置参数

3. 启动批量任务

4. 查看处理进度

5. 导出结果

5.3 最佳实践

6. 识别历史

6.1 功能说明

6.2 主要功能

查看最近记录

搜索功能

查看详细信息

删除与清空

6.3 数据存储机制

7. VAD 检测

7.1 功能说明

7.2 应用场景

7.3 操作流程

1. 上传音频

2. 设置最大单段时长

3. 执行检测

7.4 输出用途

8. 系统设置

8.1 计算设备选择

8.2 模型管理

8.3 性能调优参数

8.4 缓存与资源管理

9. 常见问题

9.1 识别速度慢怎么办？

9.2 识别准确率不高？

9.3 出现 CUDA out of memory 错误？

9.4 麦克风无法使用？

9.5 页面显示异常？

9.6 如何提高批量处理效率？

9.7 历史记录占用空间过大？

10. 总结

热门文章

文章分类

标签云

相关文章

Qwen3-VL-2B保姆级教程：云端GPU免配置，1小时1块快速上手

没服务器怎么部署？HY-MT1.5-1.8B云端1小时1块

语音合成模型压缩实战：CosyVoice-300M Lite技术

需要专业的网站建设服务？