008、OpenClaw TTS 声学模型实战:训练数据准备与配置解析

张开发
2026/4/13 1:49:24 15 分钟阅读

分享文章

008、OpenClaw TTS 声学模型实战:训练数据准备与配置解析
上周调一个长句合成,输出音频在中段突然出现音调断裂,像是两个不同人在交替发音。频谱图上一看,隐状态在某个音素边界处发生了跳变。问题最终追溯到训练数据里同一说话人的音频存在采样率混用——部分文件是16kHz,另一些却是22.05kHz。预处理脚本没做统一重采样,导致模型在训练时被迫适应两种不同的频谱特征。今天我们就从数据准备这个最容易被忽视的环节说起。数据收集:要干净,更要一致TTS 对数据一致性的要求比 ASR 苛刻得多。同一个说话人,同样的录音设备,同样的声学环境——这三条是底线。我习惯在项目开始前先写一个数据校验脚本,跑一遍所有音频,检查这些指标:采样率(必须全部一致)比特深度(建议16bit)声道数(单声道为佳)音量电平(做归一化,避免有的片段声音大有的小)静音段长度(头尾静音裁剪要一致)这里有个坑:有些公开数据集标注的采样率和实际文件头里的信息对不上。所以别相信元数据,直接读文件头或者用 librosa 加载时检查原始采样率。importlibrosaimportsoundfileassfdef

更多文章