腾讯正式宣布开源旗下AI音乐生成项目SongGeneration,该项目基于创新的LeVo架构,实现了从文本到完整歌曲的端到端生成能力,为人声与伴奏的和谐融合提供了突破性解决方案。
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
行业现状:AI音乐生成进入多模态融合新阶段
随着AIGC技术的快速迭代,音乐生成领域正从单一旋律创作向"歌词-旋律-编曲-演唱"全链路自动化演进。据行业研究显示,2024年全球AI音乐市场规模已突破12亿美元,其中文本驱动的完整歌曲生成成为技术竞争焦点。当前主流方案普遍面临人声与伴奏分离度不足、多语言支持有限、长音频连贯性差等问题,亟需架构层面的创新突破。
产品亮点:LeVo架构重构AI作曲技术范式
SongGeneration的核心竞争力源于其独创的LeVo(Learning Voice)架构,该架构通过混合音轨与双轨并行建模技术实现了音质与和谐度的双重突破。模型底层由LeLM语言模型与音乐编解码器构成,前者负责将文本指令转化为混合音轨 tokens(人声+伴奏融合表示)和双轨 tokens(人声/伴奏独立表示),后者则将这些 tokens 重构为48kHz高保真音频。
如上图所示,该架构创新性地采用了并行建模机制:混合音轨 tokens 确保人声与伴奏的整体和谐,双轨 tokens 则提升各自的音质表现。这种设计既解决了传统单轨模型的"混音浑浊"问题,又避免了双轨模型的"情感割裂"缺陷。
在训练数据方面,模型基于百万级歌曲数据集进行预训练,涵盖流行、摇滚、古典等多风格音乐作品。目前已发布的模型版本中,SongGeneration-base-full支持最长4分30秒的中英文歌曲生成,而-large版本通过RFT(相对保真度测试)评分达到1.51,这一指标已接近专业音乐制作人的人工混音水准。
从图中可以看出,项目提供了从base到large的多规格模型选择,其中最新的v1.5系列将支持英、中、西班牙、日语等多语言生成。不同参数规模的模型可适配从个人创作到专业制作的多样化需求,10G起步的显存要求也降低了开发者的使用门槛。
行业影响:开源生态加速音乐创作普及化
腾讯此次开源采取了"模型权重+推理代码+技术文档"全栈开放策略,开发者可通过Hugging Face获取预训练模型,或直接在Space Demo中体验文本生成歌曲的完整流程。这种开放模式有望加速AI音乐技术在内容创作、游戏配乐、广告制作等领域的落地应用。
特别值得注意的是,SongGeneration在中文歌曲生成上表现突出。得益于腾讯在中文NLP领域的技术积累,模型能精准捕捉汉语声调与旋律的映射关系,解决了此前AI生成中文歌曲"咬字不准"、"情感脱节"等痛点。在实际测试中,其生成的中文流行歌曲在专业听众盲测中获得了82%的"真人度"评分。
未来展望:多模态交互开启音乐创作新可能
随着v1.5版本的即将发布,SongGeneration将进一步扩展至西班牙语、日语等多语言支持,并计划引入情感迁移、风格融合等高级功能。腾讯表示,未来将通过社区共建方式持续优化模型,目标是实现"文本-旋律-编曲-MV"的全流程AIGC。
对于音乐行业而言,这类技术的普及可能带来创作模式的根本性变革:独立音乐人可通过AI快速完成demo制作,游戏厂商能实现动态配乐的实时生成,教育领域则可开发个性化的音乐学习工具。但与此同时,版权归属、创作伦理等问题也亟待行业共同探讨解决方案。
SongGeneration的开源,标志着中国AI企业在音乐生成领域从"技术跟随"转向"标准制定"的关键跨越。随着LeVo架构的持续迭代,我们或将迎来一个"人人皆可创作专业级歌曲"的新音乐时代。
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考