在数字人相关应用中,口播视频是一类比较常见的使用场景。相比复杂的模型部署,通过 API 方式完成音视频合成,可以明显降低接入门槛。本文记录一次123 口播数字人 API的实际接入过程,包含接口参数说明、返回结构以及相关注意事项,并结合一个开源数字人项目,对整体接入方式进行说明,供学习与参考。
一、接口能力与使用场景说明
该接口主要用于音频驱动视频的口播合成场景,整体调用逻辑较为简单:
提供视频地址
提供音频地址
提交合成任务
通过回调或任务 ID 获取结果
适合用于学习数字人口播流程或进行功能验证。
二、接口基础信息
接口地址
POST https://api.yidevs.com/app/human/human/Musetalk/direct调用方式
请求方式:POST
请求频率:不限
按合成时长计费
三、请求 Header 参数说明
| 参数名 | 必填 | 类型 | 说明 |
|---|---|---|---|
| Authorization | 是 | string | 控制台创建的 Token |
| Accept | 否 | string | application/json |
| Content-Type | 否 | string | application/json |
四、请求参数说明
| 参数名 | 类型 | 必填 | 描述 |
|---|---|---|---|
| callback_url | string | 是 | 合成完成后的回调地址 |
| video_url | string | 是 | 视频文件的公网访问地址 |
| audio_url | string | 是 | 音频文件的公网访问地址 |
说明:
视频与音频需为可直接访问的公网地址
合成效果与素材质量有较大关系
五、接口返回示例与字段解析
{ "code": 200, "msg": "success", "data": { "video_task_id": 573, "bill_id": "1102", "tips": "合成后的视频地址有效期为24小时,请尽快保存!" } }字段说明:
video_task_id:视频合成任务 IDbill_id:计费记录标识tips:系统提示信息
六、使用过程中的注意事项
在实际测试过程中,有以下几点需要注意:
生成后的视频链接有效期为 24 小时
建议在回调后及时下载并保存音频清晰度影响最终效果
建议使用无背景音乐、无明显杂音的音频视频素材尽量保持正脸和稳定画面
频繁遮挡或大幅度转头会影响合成效果
七、开源数字人项目 GenHuman 简介(学习参考)
为了更直观地理解接口在实际项目中的使用方式,这里结合一个基于 API 的开源数字人项目GenHuman进行说明。
项目特点
基于 API 接入数字人能力
前后端结构完整,适合学习整体流程
支持 Web、App、小程序等多端形式
技术栈说明
后端:PHP(Webman 框架)
前端:Uniapp
数据库:MySQL
该项目不涉及模型部署,主要用于展示接口调用、任务管理及前端交互流程。
八、部署环境说明(简要)
项目运行环境要求如下:
PHP 8.1
MySQL 5.7
Nginx
Webman 官方依赖扩展
后台管理地址示例:
https://YourDomain/admin九、总结
本文从接口调用角度,记录了 123 口播数字人 API 的基本使用方式,并结合一个开源项目,对数字人口播的整体接入流程进行了说明。对于希望了解音视频合成接口调用流程、或进行相关技术学习的开发者来说,希望该方案对你有一定的参考价值。