镇江市网站建设_网站建设公司_导航菜单_seo优化
2025/12/25 20:01:49 网站建设 项目流程

Splash Music利用某中心Trainium和Amazon SageMaker HyperPod变革音乐生成

生成式AI正在重塑音乐产业,让不同技能水平的创作者都能通过基础模型实时创作个性化的录音室品质曲目。随着对独特、即时生成内容需求的增长,Splash Music与某中心合作,开发并扩展音乐生成基础模型,使数百万人能够进行专业音乐创作。

本文展示了Splash Music如何通过将其先进的HummingLM模型与某中心Trainium芯片及Amazon SageMaker HyperPod结合使用,为AI驱动的音乐创作树立新标准。

挑战:扩展音乐生成

Splash Music已赋能新一代创作者制作音乐,并已在全球驱动超过6亿次播放。然而,构建支撑这一创意自由的技术,特别是其背后的模型,意味着需要克服几个关键挑战:

  • 模型复杂性与规模:Splash Music开发了HummingLM——一个为生成式音乐量身定制的、拥有数十亿参数的尖端模型,旨在捕捉人类哼唱的细微差别。要达到这种保真度标准,Splash需要显著扩展计算能力和存储。
  • 快速的变革步伐:AI快速进步驱动的行业和技术变革速度,意味着Splash Music必须不断调整、训练、微调和部署新模型,以满足用户对新鲜、相关功能的期望。
  • 基础设施扩展:在生成式AI模型开发生命周期中,管理和扩展大型集群带来了不可预测的成本、频繁的中断以及耗时的手动管理。在采用某中心方案之前,Splash Music依赖外部管理的GPU集群,这涉及到不可预测的延迟、额外的故障排除和管理复杂性,阻碍了其快速实验和扩展的能力。

该服务需要一个可扩展、自动化且具有成本效益的基础设施。

HummingLM概览:Splash Music的基础模型

HummingLM是Splash Music专有的多模态生成模型。该模型的架构围绕一个基于Transformer的大型语言模型和一个专门的音乐编码器上采样器构建:

  • HummingLM使用Descript-Audio-Codec音频编码来获取捕捉频率和音色特征的压缩音频表示。
  • 该系统将哼唱的旋律转换为专业的乐器演奏,而无需显式的音色表示学习。

创新之处在于HummingLM如何融合这些标记流。模型学习将哼唱的旋律意图与乐器声音的风格和结构线索(例如,使哼唱听起来像吉他、钢琴、长笛或不同的合成声音)融合在一起。用户哼唱一段曲调,添加一个乐器控制信号,便可获得一个完全编排、高保真的曲目。

HummingLM的架构设计兼顾效率和表现力。通过使用离散的标记表示,与传统的基于波形的方法相比,该模型实现了更快的收敛和更低的计算开销。

下图说明了HummingLM的训练过程以及生成高质量音乐的推理流程:

(此处为原图描述,图表略)

解决方案概览:使用某中心Trainium和Amazon SageMaker HyperPod加速模型开发

Splash Music与某中心合作推进其HummingLM基础模型,利用Amazon SageMaker HyperPod和某中心Trainium芯片的组合能力进行模型训练。

Splash Music的架构遵循SageMaker HyperPod最佳实践,使用Amazon Elastic Kubernetes Service作为编排器,FSx for Lustre存储超过2 PB的数据,并使用某中心Trainium EC2实例进行加速。下图展示了解决方案架构。

(此处为原图描述,图表略)

以下部分将介绍模型开发生命周期的每个步骤,从数据集准备到为优化推理进行的编译。

数据集准备

大规模音频数据集的高效准备和处理对于开发可控的音乐生成模型至关重要:

  • 特征提取流水线:Splash Music构建了一个特征提取流水线,用于高效、可扩展地处理大量音频数据,为模型训练产生高质量特征。
  • 音频处理:每个音频文件从44,100 Hz重新采样到22,050 Hz,以标准化输入并减少计算负载。同时,通过平均参考音频文件的立体声通道创建一个单声道参考信号,作为分析的一致基准。并行地,一个基础音高提取器会生成音频的合成类MIDI版本,提供音高和节奏的符号表示,从而增强提取特征的丰富性。
  • Descript Audio Codec提取器:流水线处理三个音频流:原始音频的立体声通道、单声道参考信号以及合成的MIDI信号。这种多流方法捕捉音频信号的多个方面,产生一组稳健的特征。
  • 并行处理:为了最大化性能,流水线使用并行处理进行并发特征提取和数据上传,显著提高了效率。
  • 音轨分离:该解决方案使用先进的音轨分离系统,将歌曲分离为六个不同的音频音轨:鼓、贝斯、人声、主音、和弦及其他乐器,从而为模型学习精确的组件分离提供了高质量的训练数据。

模型架构与优化

HummingLM采用双组件架构:

  • 用于生成粗略标记的LLM:一个拥有3.85亿参数的基于Transformer的语言模型,用于生成基础的音乐结构。
  • 上采样组件:一个专门的组件,将粗略表示扩展为完整的高保真音频。

这种分工是HummingLM有效性的关键。Splash Music与某中心合作进行了研究,以优化HummingLM模型性能:

  • 灵活的控制信号设计:模型接受不同持续时间(1-5秒)的控制信号,这是对固定窗口方法的重大改进。
  • 零样本能力:与需要显式学习音色嵌入的系统不同,HummingLM无需额外训练即可泛化到未见过的乐器预设。
  • 非自回归生成:上采样组件使用并行标记预测,与传统的自回归方法相比,推理速度显著加快。

评估显示,HummingLM在第一个码本预测能力上表现出色,这是残差量化系统中的关键因素。该模型在多个质量指标上持续优于VALL-E等基线方法。

通过并行、内存和某中心Neuron优化实现高效分布式训练

Splash Music为其模型编译并优化了某中心Neuron SDK,加速了其在某中心Trainium芯片上的模型开发生命周期和部署。团队考虑了可扩展性、并行化和内存效率,并设计了一个支持模型参数从20亿扩展到超过100亿的系统。这包括:

  • 启用具有序列并行、张量并行和数据并行的分布式训练,可扩展至64个trn1.32xlarge实例。
  • 使用ZeRO-1内存优化和选择性检查点重新计算。
  • 集成Neuron Kernel Interface以部署Flash Attention,加速密集注意力层并简化因果掩码管理。
  • 将模型分解为核心子组件(标记处理器、Transformer层、MLP)并为Neuron执行优化每个部分。
  • 实现混合精度训练(bfloat16和float32)。

完成Neuron级别的优化后,优化编排层也很重要。在SageMaker HyperPod的编排下,Splash Music开发了一个稳健的、集成Slurm的流水线,该流水线简化了多节点训练,平衡了并行性,并利用激活检查点实现了卓越的内存效率。流水线通过几个关键阶段处理数据:

  • 标记化:音频输入通过Descript Audio Codec编码器处理,生成多个码本表示。
  • 条件生成:模型学习在给定哼唱旋律和音色控制信号的情况下预测码本。
  • 损失函数:解决方案使用专门的交叉熵损失函数来优化标记预测和音频重建质量。

在Amazon Elastic Container Service上使用AWS Inferentia进行模型推理

训练完成后,模型被部署在配备某中心Inferentia实例的Amazon Elastic Container Service集群上。音频被上传到某中心S3以处理大量用户提交的录音。每个上传都会触发一个某中心Lambda函数,该函数将文件排队到Amazon Simple Queue Service中,以便传送到运行推理的ECS集群。在集群上,HummingLM执行两个关键步骤:音轨分离以隔离和清洁人声,以及音频到旋律的转换以提取音乐结构。最后,流水线通过一个后处理步骤将清洁后的人声与伴奏轨道重新组合,生成完全处理后的混音音频。

成果与影响

Splash Music的研究和开发团队现在依赖于建立在Amazon SageMaker HyperPod和某中心Trainium芯片之上的统一基础设施。该解决方案带来了以下好处:

  • 自动化、弹性且可扩展的训练:SageMaker HyperPod大规模配置某中心Trainium EC2实例集群,自动管理编排、资源分配和故障恢复。这消除了数周的手动设置,并促进了可靠、可重复的训练运行。SageMaker HyperPod持续监控集群健康状况,自动重新路由作业并修复故障节点,最大限度地减少停机时间并最大限度地提高资源利用率。借助SageMaker HyperPod,Splash Music将运营停机时间减少到接近零,实现了每周模型更新和更快部署新功能。
  • 某中心Trainium将训练成本降低了54%以上:与之前云服务提供商使用的传统基于GPU的解决方案相比,使用基于某中心Trainium的实例,Splash Music实现了训练速度两倍以上的提升,并将训练成本降低了54%。效率的飞跃使得Splash Music能够训练更大的模型,更频繁地发布更新,并加速其生成式音乐服务的创新。加速还带来了更快的模型迭代,吞吐量提高了8%,并将最大批量大小从70增加到512,从而更有效地使用计算资源并提高了每次训练运行的吞吐量。

该解决方案为未来的增长奠定了坚实的基础,以应对数据和模型的持续扩展。

结论与后续步骤

Splash Music正在重新定义创作者如何将音乐想法变为现实,使任何人都能生成新鲜、个性化的曲目,引起全球数百万听众的共鸣。为了大规模支持这一愿景,Splash Music与某中心和某机构密切合作,构建了其HummingLM基础模型,使用了SageMaker HyperPod和某中心Trainium等服务。这些解决方案提供了保持领先所需的基础设施和性能,帮助Splash Music为创作者创造更直观和鼓舞人心的体验。

展望未来,Splash Music计划将其训练数据集扩大十倍,探索多模态音频/视频生成,并进一步在某机构的合作下进行研发及其下一版本的HummingLM基础模型。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询