广州市网站建设_网站建设公司_UX设计_seo优化-商洛市网站建设公司

SoulX-Podcast 本地部署与WebUI体验教程（支持方言播客生成）

关键词：SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI

一、项目简介

SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库，专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成，同时在传统单人 TTS 任务上也表现出色。

核心亮点：

支持长达90分钟以上的连续对话生成，声音稳定、切换自然。
支持旁白语言控制（笑声、叹气、呼吸等），极大提升真实感。
支持中英双语+中文方言（四川话、河南话、粤语）。
零样本跨方言声音克隆：用普通话参考音频即可生成对应方言的克隆声音。
基于 Qwen3-1.7B 大模型，参数量约1.7B。

官方仓库：https://github.com/Soul-AILab/SoulX-Podcast
在线Demo：https://soul-ailab.github.io/soulx-podcast/
模型下载：Hugging Face 或 ModelScope

本文基于用户实际部署经验，详细介绍本地部署 + Gradio WebUI 启动的全过程，尤其适合在云服务器（如云GPU平台）上运行，并实现公网访问。

二、环境准备

推荐使用 Python 3.10 或 3.11 环境。项目依赖较多，建议使用虚拟环境。

https://modelscope.cn/my/mynotebook/preset

1. 克隆仓库

gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast

2. 创建虚拟环境（推荐）

# 如果系统没有 Python 3.10，可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate

3. 安装依赖

pipinstall-r requirements.txt

注意：如果网络慢或在国内，可添加国内镜像：
pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

三、模型下载

项目提供两个模型：

基础模型：SoulX-Podcast-1.7B（支持中英）
方言模型：SoulX-Podcast-1.7B-dialect（额外支持四川话、河南话、粤语）

方法一：使用 ModelScope（国内更快）

frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型（推荐用于播客体验）snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")

方法二：使用 Hugging Face CLI（官方推荐）

pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

模型较大（约10GB+），建议在良好网络环境下下载，支持断点续传。

四、启动 Gradio WebUI

项目内置webui.py使用 Gradio 实现可视化界面，非常方便。

基本启动（本地访问）

# 使用方言模型（推荐）python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

默认会在 http://127.0.0.1:7860 启动。

云服务器公网访问配置

如果在云服务器（如 RunPod、AutoDL、Vast.ai 等）部署，需要对外开放端口并支持分享链接。

步骤1：修改 webui.py 中的 launch 参数

打开webui.py，找到类似以下代码行：

page.launch(share=False,server_name="0.0.0.0",server_port=args.port)

修改为：

page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口

server_name="0.0.0.0"：监听所有IP，实现外网访问。
share=True：生成 Gradio 公网链接（需联网）。

步骤2：frpc 内网穿透（可选，更稳定）

如果平台不支持直接公网端口，可使用 frpc。

# 下载 frpc（Linux amd64）wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

然后再次运行：

python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

启动成功后，会输出类似：

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live

五、使用说明

进入 WebUI 后：

上传参考音频（用于声音克隆）。
输入对话脚本（支持多说话人格式，如 Speaker1: xxx）。
选择语言/方言、添加旁白标签（如<|laughter|>）。
点击生成，即可得到高质量播客音频。

提示：

方言生成必须使用-dialect模型。
长对话建议分段生成，避免显存溢出。
支持零样本克隆：只需几秒参考音频。

六、常见问题排查

显存不足：1.7B 模型在 24GB GPU 上可流畅运行，长对话可降低 batch。
依赖报错：确保在虚拟环境中安装 requirements。
无声音输出：检查模型路径是否正确。
Gradio 分享失败：检查网络，或使用 frpc。

七、总结

SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一，尤其在方言和情感表达上领先。通过上述步骤，你可以在本地或云端快速搭建属于自己的 AI 播客生成器，轻松制作双人/多人对话节目。

感兴趣的朋友快去试试吧！欢迎在评论区分享你的生成效果～

参考资料：

官方 GitHub：https://github.com/Soul-AILab/SoulX-Podcast
Demo 页面：https://soul-ailab.github.io/soulx-podcast/
论文：https://arxiv.org/abs/2510.23541

（完）

广州市网站建设_网站建设公司_UX设计_seo优化

SoulX-Podcast 本地部署与WebUI体验教程（支持方言播客生成）

一、项目简介

二、环境准备

1. 克隆仓库

2. 创建虚拟环境（推荐）

3. 安装依赖

三、模型下载

方法一：使用 ModelScope（国内更快）

方法二：使用 Hugging Face CLI（官方推荐）

四、启动 Gradio WebUI

基本启动（本地访问）

云服务器公网访问配置

步骤1：修改 webui.py 中的 launch 参数

步骤2：frpc 内网穿透（可选，更稳定）

五、使用说明

六、常见问题排查

七、总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

广州市网站建设_网站建设公司_UX设计_seo优化

SoulX-Podcast 本地部署与WebUI体验教程（支持方言播客生成）

一、项目简介

二、环境准备

1. 克隆仓库

2. 创建虚拟环境（推荐）

3. 安装依赖

三、模型下载

方法一：使用 ModelScope（国内更快）

方法二：使用 Hugging Face CLI（官方推荐）

四、启动 Gradio WebUI

基本启动（本地访问）

云服务器公网访问配置

步骤1：修改 webui.py 中的 launch 参数

步骤2：frpc 内网穿透（可选，更稳定）

五、使用说明

六、常见问题排查

七、总结

热门文章

文章分类

标签云

相关文章

大模型面试 请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解，它们在架构或训练策略上有何关键差异？

基于RK3399Pro与RK3568的车载防撞方案：为货车泥头车安全护航

超声波传感器(HC-SR04)与Arduino Uno及Mixly使用

需要专业的网站建设服务？

大模型面试请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解，它们在架构或训练策略上有何关键差异？