广州市网站建设_网站建设公司_UX设计_seo优化
2026/1/6 18:22:20 网站建设 项目流程

SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

关键词:SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI

一、项目简介

SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库,专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成,同时在传统单人 TTS 任务上也表现出色。

核心亮点:

  • 支持长达90分钟以上的连续对话生成,声音稳定、切换自然。
  • 支持旁白语言控制(笑声、叹气、呼吸等),极大提升真实感。
  • 支持中英双语+中文方言(四川话、河南话、粤语)。
  • 零样本跨方言声音克隆:用普通话参考音频即可生成对应方言的克隆声音。
  • 基于 Qwen3-1.7B 大模型,参数量约1.7B。

官方仓库:https://github.com/Soul-AILab/SoulX-Podcast
在线Demo:https://soul-ailab.github.io/soulx-podcast/
模型下载:Hugging Face 或 ModelScope

本文基于用户实际部署经验,详细介绍本地部署 + Gradio WebUI 启动的全过程,尤其适合在云服务器(如云GPU平台)上运行,并实现公网访问。

二、环境准备

推荐使用 Python 3.10 或 3.11 环境。项目依赖较多,建议使用虚拟环境。

https://modelscope.cn/my/mynotebook/preset

1. 克隆仓库

gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast

2. 创建虚拟环境(推荐)

# 如果系统没有 Python 3.10,可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate

3. 安装依赖

pipinstall-r requirements.txt

注意:如果网络慢或在国内,可添加国内镜像:

pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

三、模型下载

项目提供两个模型:

  • 基础模型:SoulX-Podcast-1.7B(支持中英)
  • 方言模型:SoulX-Podcast-1.7B-dialect(额外支持四川话、河南话、粤语)

方法一:使用 ModelScope(国内更快)

frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型(推荐用于播客体验)snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")

方法二:使用 Hugging Face CLI(官方推荐)

pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

模型较大(约10GB+),建议在良好网络环境下下载,支持断点续传。

四、启动 Gradio WebUI

项目内置webui.py使用 Gradio 实现可视化界面,非常方便。

基本启动(本地访问)

# 使用方言模型(推荐)python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

默认会在 http://127.0.0.1:7860 启动。

云服务器公网访问配置

如果在云服务器(如 RunPod、AutoDL、Vast.ai 等)部署,需要对外开放端口并支持分享链接。

步骤1:修改 webui.py 中的 launch 参数

打开webui.py,找到类似以下代码行:

page.launch(share=False,server_name="0.0.0.0",server_port=args.port)

修改为:

page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口
  • server_name="0.0.0.0":监听所有IP,实现外网访问。
  • share=True:生成 Gradio 公网链接(需联网)。
步骤2:frpc 内网穿透(可选,更稳定)

如果平台不支持直接公网端口,可使用 frpc。

# 下载 frpc(Linux amd64)wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

然后再次运行:

python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

启动成功后,会输出类似:

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live

五、使用说明

进入 WebUI 后:

  1. 上传参考音频(用于声音克隆)。
  2. 输入对话脚本(支持多说话人格式,如 Speaker1: xxx)。
  3. 选择语言/方言、添加旁白标签(如<|laughter|>)。
  4. 点击生成,即可得到高质量播客音频。

提示

  • 方言生成必须使用-dialect模型。
  • 长对话建议分段生成,避免显存溢出。
  • 支持零样本克隆:只需几秒参考音频。

六、常见问题排查

  • 显存不足:1.7B 模型在 24GB GPU 上可流畅运行,长对话可降低 batch。
  • 依赖报错:确保在虚拟环境中安装 requirements。
  • 无声音输出:检查模型路径是否正确。
  • Gradio 分享失败:检查网络,或使用 frpc。

七、总结

SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一,尤其在方言和情感表达上领先。通过上述步骤,你可以在本地或云端快速搭建属于自己的 AI 播客生成器,轻松制作双人/多人对话节目。

感兴趣的朋友快去试试吧!欢迎在评论区分享你的生成效果~

参考资料

  • 官方 GitHub:https://github.com/Soul-AILab/SoulX-Podcast
  • Demo 页面:https://soul-ailab.github.io/soulx-podcast/
  • 论文:https://arxiv.org/abs/2510.23541

(完)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询