保亭黎族苗族自治县网站建设_网站建设公司_MongoDB

FunASR WebUI 使用指南：支持实时录音与多格式导出

1. 快速开始

1.1 访问方式

启动服务后，可通过以下地址访问 FunASR WebUI 界面：

本地访问：
```
http://localhost:7860
```
远程访问（适用于服务器部署）：
```
http://<服务器IP>:7860
```

确保端口7860在防火墙或安全组中已开放，方可从外部网络访问。

2. 界面功能详解

2.1 头部信息区域

界面顶部展示核心标识信息：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权说明：webUI 二次开发 by 科哥 | 微信：312088415

该部分为固定展示内容，便于用户确认当前使用的是官方维护版本。

2.2 控制面板（左侧栏）

2.2.1 模型选择

提供两种主流 ASR 模型供切换使用：

Paraformer-Large：大参数量模型，识别精度高，适合对准确率要求高的场景（可选）
SenseVoice-Small：轻量级模型，默认启用，响应速度快，适合实时交互和低延迟需求

建议在 GPU 资源充足时优先选用 Paraformer-Large；若追求速度或仅用于测试，推荐 SenseVoice-Small。

2.2.2 设备运行模式

CUDA：利用 NVIDIA 显卡进行推理加速，显著提升处理效率（有 GPU 时自动选中）
CPU：纯 CPU 推理模式，兼容无独立显卡环境，但性能较低

若未检测到 CUDA 支持，请手动切换至 CPU 模式以避免加载失败。

2.2.3 功能开关配置

三项关键增强功能可自由启停：

启用标点恢复 (PUNC)：自动为识别结果添加句号、逗号等标点符号，提升可读性
启用语音活动检测 (VAD)：智能分割音频流中的有效语音段，过滤静音与噪声
输出时间戳：在结果中标注每句话的起止时间，便于后期编辑与同步

开启 VAD 和 PUNC 可大幅提升长音频处理体验，尤其适用于会议记录、访谈转录等场景。

2.2.4 模型状态显示

实时反馈当前模型加载情况：

✅ “模型已加载” 表示准备就绪，可开始识别
❌ “模型未加载” 需点击“加载模型”按钮重新初始化

2.2.5 操作控制按钮

加载模型：手动触发模型加载或重载，适用于更换模型/设备后刷新状态
刷新：更新界面状态信息，检查最新运行状态

3. 核心使用流程

3.1 方式一：上传音频文件识别

3.1.1 支持的音频格式

系统支持多种常见音频编码格式，包括：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐使用16kHz 采样率的单声道音频，符合大多数 ASR 模型输入标准，有助于提高识别准确率。

3.1.2 文件上传步骤

进入主界面的ASR 语音识别模块
点击“上传音频”按钮
从本地选择目标音频文件
等待上传完成（进度条提示）

3.1.3 参数设置

上传完成后需配置以下参数：

参数项	可选项	说明
批量大小（秒）	60 - 600 秒（默认 300）	控制每次处理的最大音频长度，建议不超过 5 分钟
识别语言	`auto`,`zh`,`en`,`yue`,`ja`,`ko`	自动检测或指定语种，混合语言建议选`auto`

对于粤语、日语、韩语内容，请明确选择对应语言以获得最佳识别效果。

3.1.4 开始识别

点击“开始识别”按钮，系统将调用选定模型进行推理。处理时间取决于音频长度、模型类型及硬件性能。

3.1.5 查看识别结果

识别完成后，结果分三个标签页呈现：

文本结果

展示最终生成的纯文本内容
支持一键复制，方便后续使用

详细信息

输出完整的 JSON 结构数据
包含每个词的时间戳、置信度、语言标签等元信息

时间戳

列出每一句的起止时间与持续时长
格式示例：[001] 0.000s - 2.500s (时长: 2.500s)

3.2 方式二：浏览器实时录音识别

3.2.1 启动录音

点击“麦克风录音”按钮
浏览器弹出权限请求时，点击“允许”授予权限

首次使用需手动授权麦克风访问权限，后续将记忆设置。

3.2.2 录音操作

开始说话即可录制
点击“停止录音”结束采集

系统会自动保存临时录音文件并显示波形预览。

3.2.3 执行识别

与上传文件一致，点击“开始识别”即可处理刚录制的语音。

3.2.4 结果查看

结果展示方式同上传文件模式，支持文本、JSON 和时间戳三种视图。

实时录音功能非常适合快速验证模型效果、制作字幕草稿或即时笔记记录。

4. 识别结果导出与管理

4.1 多格式下载支持

识别完成后，可通过三个按钮下载不同格式的结果：

下载按钮	输出格式	典型用途
下载文本	`.txt`	纯文本存档、导入文档编辑器
下载 JSON	`.json`	程序解析、二次开发接口对接
下载 SRT	`.srt`	视频字幕嵌入、剪辑软件导入

SRT 字幕文件广泛兼容各类播放器（如 VLC、PotPlayer）和视频编辑工具（Premiere、Final Cut Pro），是视频创作者的理想选择。

4.2 输出目录结构

所有识别输出统一保存在本地outputs/目录下，按时间戳命名子文件夹：

outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果（含时间戳） ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件

每次识别均创建独立目录，防止文件覆盖，便于归档管理。

5. 高级功能配置

5.1 批量大小调节

默认值：300 秒（5 分钟）
可调范围：60 ~ 600 秒
作用机制：控制单次推理的最大音频片段长度

对于超过限制的长音频，系统会自动分段处理并合并结果。适当减小批量大小可降低内存占用，提升稳定性。

5.2 语言识别策略

合理选择语言模式能显著影响识别质量：

场景	推荐设置
纯中文内容	`zh`
英文演讲/课程	`en`
中英混合对话	`auto`
粤语节目/采访	`yue`
日语动画/访谈	`ja`
韩语综艺/播客	`ko`

当不确定语种时，使用auto模式由系统自动判断，虽略有延迟但适应性强。

5.3 时间戳应用价值

开启“输出时间戳”后，可用于：

视频剪辑定位关键片段
自动生成带时间索引的会议纪要
构建语音标注数据集
实现点击字幕跳转播放（Web 播放器集成）

6. 典型输出示例

6.1 纯文本输出

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

简洁明了，适合直接粘贴至 Word、Notion 或其他办公软件。

6.2 SRT 字幕输出

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

标准 SRT 格式，可直接拖入视频编辑软件生成外挂字幕。

6.3 时间戳信息展示

时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

精确到毫秒级的时间标记，满足专业级音频分析需求。

7. 常见问题与解决方案

7.1 Q1：识别结果不准确怎么办？

排查与优化建议：

确认是否选择了正确的语言模式（如中文应选zh）
检查原始音频质量，避免背景噪音过大或人声过低
尝试调整录音音量增益
如存在明显噪声，建议先使用降噪工具预处理音频

提示：清晰发音、适中语速、减少口音差异有助于提升识别率。

7.2 Q2：识别速度慢如何解决？

可能原因分析：

正在使用 CPU 模式运行
音频文件过长导致一次性处理压力大
模型本身较重（如 Paraformer-Large）

应对措施：

确保设备选择为CUDA（GPU 加速）
将长音频拆分为小于 5 分钟的片段分别处理
切换至SenseVoice-Small模型以换取更快响应

7.3 Q3：无法上传音频文件？

检查清单：

文件扩展名是否在支持列表内（WAV/MP3/M4A/FLAC/OGG/PCM）
文件大小是否过大（建议控制在 100MB 以内）
浏览器是否存在兼容性问题（推荐 Chrome/Firefox 最新版）

若仍无法上传，请尝试转换为 WAV 格式后再试。

7.4 Q4：录音没有声音？

故障排查步骤：

确认浏览器已授予麦克风权限
检查操作系统音频设置，确认麦克风正常工作
测试系统自带录音工具能否采集声音
调整麦克风输入音量至合适水平

7.5 Q5：识别结果出现乱码？

解决方法：

确保选择的语言与实际语音内容匹配
检查音频编码格式是否异常（如非标准 PCM 编码）
尝试将音频重新导出为标准 WAV 格式再上传

7.6 Q6：如何进一步提升识别准确率？

综合优化建议：

使用16kHz 采样率、单声道的高质量音频
尽量在安静环境中录制，减少背景干扰
发音清晰、语速平稳，避免吞音或过快表达
根据内容特点选择最匹配的识别语言
启用VAD + PUNC组合功能，提升上下文连贯性

8. 服务管理与退出

8.1 停止 WebUI 服务

在终端中执行以下任一操作即可终止服务：

快捷键中断：
```
Ctrl + C
```
强制结束进程（Linux/macOS）：
```
pkill -f "python.*app.main"
```

建议正常关闭以释放资源，避免残留进程占用显存。

9. 快捷操作参考

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C
粘贴音频路径	Ctrl + V（部分浏览器支持）

10. 技术支持与反馈

开发者：科哥
联系方式：微信：312088415
问题反馈要求：请提供完整操作步骤、错误截图及日志信息，以便快速定位问题

本项目承诺永久开源免费使用，请保留原始版权信息。

11. 更新日志

v1.0.0 (2026-01-04)

✅ 首次正式发布
✅ 支持中文语音识别（zh）
✅ 兼容多格式音频输入（WAV/MP3/M4A/FLAC/OGG/PCM）
✅ 集成浏览器端实时录音功能
✅ 支持 TXT/JSON/SRT 多格式导出
✅ 采用紫蓝渐变主题 UI 设计，提升视觉体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

保亭黎族苗族自治县网站建设_网站建设公司_MongoDB_seo优化