FunASR WebUI 使用指南:支持实时录音与多格式导出
1. 快速开始
1.1 访问方式
启动服务后,可通过以下地址访问 FunASR WebUI 界面:
本地访问:
http://localhost:7860远程访问(适用于服务器部署):
http://<服务器IP>:7860
确保端口7860在防火墙或安全组中已开放,方可从外部网络访问。
2. 界面功能详解
2.1 头部信息区域
界面顶部展示核心标识信息:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权说明:webUI 二次开发 by 科哥 | 微信:312088415
该部分为固定展示内容,便于用户确认当前使用的是官方维护版本。
2.2 控制面板(左侧栏)
2.2.1 模型选择
提供两种主流 ASR 模型供切换使用:
- Paraformer-Large:大参数量模型,识别精度高,适合对准确率要求高的场景(可选)
- SenseVoice-Small:轻量级模型,默认启用,响应速度快,适合实时交互和低延迟需求
建议在 GPU 资源充足时优先选用 Paraformer-Large;若追求速度或仅用于测试,推荐 SenseVoice-Small。
2.2.2 设备运行模式
- CUDA:利用 NVIDIA 显卡进行推理加速,显著提升处理效率(有 GPU 时自动选中)
- CPU:纯 CPU 推理模式,兼容无独立显卡环境,但性能较低
若未检测到 CUDA 支持,请手动切换至 CPU 模式以避免加载失败。
2.2.3 功能开关配置
三项关键增强功能可自由启停:
- 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升可读性
- 启用语音活动检测 (VAD):智能分割音频流中的有效语音段,过滤静音与噪声
- 输出时间戳:在结果中标注每句话的起止时间,便于后期编辑与同步
开启 VAD 和 PUNC 可大幅提升长音频处理体验,尤其适用于会议记录、访谈转录等场景。
2.2.4 模型状态显示
实时反馈当前模型加载情况:
- ✅ “模型已加载” 表示准备就绪,可开始识别
- ❌ “模型未加载” 需点击“加载模型”按钮重新初始化
2.2.5 操作控制按钮
- 加载模型:手动触发模型加载或重载,适用于更换模型/设备后刷新状态
- 刷新:更新界面状态信息,检查最新运行状态
3. 核心使用流程
3.1 方式一:上传音频文件识别
3.1.1 支持的音频格式
系统支持多种常见音频编码格式,包括:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐使用16kHz 采样率的单声道音频,符合大多数 ASR 模型输入标准,有助于提高识别准确率。
3.1.2 文件上传步骤
- 进入主界面的ASR 语音识别模块
- 点击“上传音频”按钮
- 从本地选择目标音频文件
- 等待上传完成(进度条提示)
3.1.3 参数设置
上传完成后需配置以下参数:
| 参数项 | 可选项 | 说明 |
|---|---|---|
| 批量大小(秒) | 60 - 600 秒(默认 300) | 控制每次处理的最大音频长度,建议不超过 5 分钟 |
| 识别语言 | auto,zh,en,yue,ja,ko | 自动检测或指定语种,混合语言建议选auto |
对于粤语、日语、韩语内容,请明确选择对应语言以获得最佳识别效果。
3.1.4 开始识别
点击“开始识别”按钮,系统将调用选定模型进行推理。处理时间取决于音频长度、模型类型及硬件性能。
3.1.5 查看识别结果
识别完成后,结果分三个标签页呈现:
文本结果
- 展示最终生成的纯文本内容
- 支持一键复制,方便后续使用
详细信息
- 输出完整的 JSON 结构数据
- 包含每个词的时间戳、置信度、语言标签等元信息
时间戳
- 列出每一句的起止时间与持续时长
- 格式示例:
[001] 0.000s - 2.500s (时长: 2.500s)
3.2 方式二:浏览器实时录音识别
3.2.1 启动录音
- 点击“麦克风录音”按钮
- 浏览器弹出权限请求时,点击“允许”授予权限
首次使用需手动授权麦克风访问权限,后续将记忆设置。
3.2.2 录音操作
- 开始说话即可录制
- 点击“停止录音”结束采集
系统会自动保存临时录音文件并显示波形预览。
3.2.3 执行识别
与上传文件一致,点击“开始识别”即可处理刚录制的语音。
3.2.4 结果查看
结果展示方式同上传文件模式,支持文本、JSON 和时间戳三种视图。
实时录音功能非常适合快速验证模型效果、制作字幕草稿或即时笔记记录。
4. 识别结果导出与管理
4.1 多格式下载支持
识别完成后,可通过三个按钮下载不同格式的结果:
| 下载按钮 | 输出格式 | 典型用途 |
|---|---|---|
| 下载文本 | .txt | 纯文本存档、导入文档编辑器 |
| 下载 JSON | .json | 程序解析、二次开发接口对接 |
| 下载 SRT | .srt | 视频字幕嵌入、剪辑软件导入 |
SRT 字幕文件广泛兼容各类播放器(如 VLC、PotPlayer)和视频编辑工具(Premiere、Final Cut Pro),是视频创作者的理想选择。
4.2 输出目录结构
所有识别输出统一保存在本地outputs/目录下,按时间戳命名子文件夹:
outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(含时间戳) ├── text_001.txt # 纯文本摘要 └── subtitle_001.srt # SRT 字幕文件每次识别均创建独立目录,防止文件覆盖,便于归档管理。
5. 高级功能配置
5.1 批量大小调节
- 默认值:300 秒(5 分钟)
- 可调范围:60 ~ 600 秒
- 作用机制:控制单次推理的最大音频片段长度
对于超过限制的长音频,系统会自动分段处理并合并结果。适当减小批量大小可降低内存占用,提升稳定性。
5.2 语言识别策略
合理选择语言模式能显著影响识别质量:
| 场景 | 推荐设置 |
|---|---|
| 纯中文内容 | zh |
| 英文演讲/课程 | en |
| 中英混合对话 | auto |
| 粤语节目/采访 | yue |
| 日语动画/访谈 | ja |
| 韩语综艺/播客 | ko |
当不确定语种时,使用
auto模式由系统自动判断,虽略有延迟但适应性强。
5.3 时间戳应用价值
开启“输出时间戳”后,可用于:
- 视频剪辑定位关键片段
- 自动生成带时间索引的会议纪要
- 构建语音标注数据集
- 实现点击字幕跳转播放(Web 播放器集成)
6. 典型输出示例
6.1 纯文本输出
你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。简洁明了,适合直接粘贴至 Word、Notion 或其他办公软件。
6.2 SRT 字幕输出
1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统标准 SRT 格式,可直接拖入视频编辑软件生成外挂字幕。
6.3 时间戳信息展示
时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)精确到毫秒级的时间标记,满足专业级音频分析需求。
7. 常见问题与解决方案
7.1 Q1:识别结果不准确怎么办?
排查与优化建议:
- 确认是否选择了正确的语言模式(如中文应选
zh) - 检查原始音频质量,避免背景噪音过大或人声过低
- 尝试调整录音音量增益
- 如存在明显噪声,建议先使用降噪工具预处理音频
提示:清晰发音、适中语速、减少口音差异有助于提升识别率。
7.2 Q2:识别速度慢如何解决?
可能原因分析:
- 正在使用 CPU 模式运行
- 音频文件过长导致一次性处理压力大
- 模型本身较重(如 Paraformer-Large)
应对措施:
- 确保设备选择为CUDA(GPU 加速)
- 将长音频拆分为小于 5 分钟的片段分别处理
- 切换至SenseVoice-Small模型以换取更快响应
7.3 Q3:无法上传音频文件?
检查清单:
- 文件扩展名是否在支持列表内(WAV/MP3/M4A/FLAC/OGG/PCM)
- 文件大小是否过大(建议控制在 100MB 以内)
- 浏览器是否存在兼容性问题(推荐 Chrome/Firefox 最新版)
若仍无法上传,请尝试转换为 WAV 格式后再试。
7.4 Q4:录音没有声音?
故障排查步骤:
- 确认浏览器已授予麦克风权限
- 检查操作系统音频设置,确认麦克风正常工作
- 测试系统自带录音工具能否采集声音
- 调整麦克风输入音量至合适水平
7.5 Q5:识别结果出现乱码?
解决方法:
- 确保选择的语言与实际语音内容匹配
- 检查音频编码格式是否异常(如非标准 PCM 编码)
- 尝试将音频重新导出为标准 WAV 格式再上传
7.6 Q6:如何进一步提升识别准确率?
综合优化建议:
- 使用16kHz 采样率、单声道的高质量音频
- 尽量在安静环境中录制,减少背景干扰
- 发音清晰、语速平稳,避免吞音或过快表达
- 根据内容特点选择最匹配的识别语言
- 启用VAD + PUNC组合功能,提升上下文连贯性
8. 服务管理与退出
8.1 停止 WebUI 服务
在终端中执行以下任一操作即可终止服务:
快捷键中断:
Ctrl + C强制结束进程(Linux/macOS):
pkill -f "python.*app.main"
建议正常关闭以释放资源,避免残留进程占用显存。
9. 快捷操作参考
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C |
| 粘贴音频路径 | Ctrl + V(部分浏览器支持) |
10. 技术支持与反馈
- 开发者:科哥
- 联系方式:微信:312088415
- 问题反馈要求:请提供完整操作步骤、错误截图及日志信息,以便快速定位问题
本项目承诺永久开源免费使用,请保留原始版权信息。
11. 更新日志
v1.0.0 (2026-01-04)
- ✅ 首次正式发布
- ✅ 支持中文语音识别(zh)
- ✅ 兼容多格式音频输入(WAV/MP3/M4A/FLAC/OGG/PCM)
- ✅ 集成浏览器端实时录音功能
- ✅ 支持 TXT/JSON/SRT 多格式导出
- ✅ 采用紫蓝渐变主题 UI 设计,提升视觉体验
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。