SoundStorm

1年前发布 65 0 0

SoundStorm是由Google Research开发的一种音频生成技术，它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、与语音和声学条件一致性高的音频，并且可以与文本到语义模型结合，控制说话内容、说话者声音和说话轮次，实现长文本的语音合成和自然对话的生成。SoundStorm的重要性在于它解决了传统自回归音频...

收录时间：

2025-06-02

打开网站手机查看

音乐创作 # 并行处理 # 神经音频编解码 # 语音合成 # 音乐生成 # 音频生成

SoundStorm

SoundStorm

SoundStorm是由Google Research开发的一种音频生成技术，它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、与语音和声学条件一致性高的音频，并且可以与文本到语义模型结合，控制说话内容、说话者声音和说话轮次，实现长文本的语音合成和自然对话的生成。SoundStorm的重要性在于它解决了传统自回归音频生成模型在处理长序列时推理速度慢的问题，提高了音频生成的效率和质量。

数据统计

相关导航

Stable Audio ControlNet

Stable Audio ControlNet 是一个基于 Stable Audio Open 的音乐生成模型，通过 DiT ControlNet 进行微调，能够在具有 16GB VRAM 的 GPU 上使用，支持音频控制。此模型仍在开发中，但已经能够实现音乐的生成和控制，具有重要的技术意义和应用前景。

免费AI歌曲生成器

免费AI歌曲生成器是一个在线工具，使用人工智能技术根据用户输入创作个性化歌曲。它结合旋律、和声和节奏，创造完整的歌曲。产品背景信息显示，该工具受到全球超过25,000名音乐家、内容创作者和音乐爱好者的信任。它提供免费、无需订阅的音乐创作服务，支持多种音乐风格，并允许用户商业使用生成的歌曲。

StemGen

StemGen是一款端到端音乐生成模型，训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上，类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。

Music Eleven AI

Music Eleven AI是一款AI音乐生成器，使用先进的机器学习模型，能够从文本描述中生成完整的音乐作品，包括旋律、和声、节奏和人声。产品具有商业授权，支持30多种音乐风格，适用于创作者、音乐人和企业。价格分为Starter、Creator和Professional三个计划。

REECHO 睿声

REECHO.AI 睿声是一个超拟真的人工智能语音克隆平台。用户可以上传语音样本,系统利用深度学习技术进行语音克隆,生成质量极高的 AI 语音,可以实现不同人物的语音风格转换。该平台提供语音创作、语音配音等服务,让更多人可以通过 AI 技术参与语音内容的创作,降低创作门槛。平台定位大众化,提供免费使用基础功能。

YuE-s1-7B-anneal-en-cot

YuE是一个开创性的开源基础模型系列，专为音乐生成设计，能够将歌词转化为完整的歌曲。它能够生成包含吸引人的主唱和配套伴奏的完整歌曲，支持多种音乐风格。该模型基于深度学习技术，具有强大的生成能力和灵活性，能够为音乐创作者提供强大的工具支持。其开源特性也使得研究人员和开发者可以在此基础上进行进一步的研究和开发。

AudioLM

AudioLM是由Google Research开发的一个框架，用于高质量音频生成，具有长期一致性。它将输入音频映射到离散标记序列，并将音频生成视为这一表示空间中的语言建模任务。AudioLM通过在大量原始音频波形上训练，学习生成自然且连贯的音频续篇，即使在没有文本或注释的情况下，也能生成语法和语义上合理的语音续篇，同时保持说话者的身份和韵律。此外，AudioLM还能生成连贯的钢琴音乐续篇，尽管它在训练时没有使用任何音乐的符号表示。

musicgen-songstarter-v0.2

musicgen-songstarter-v0.2是一个针对音乐制作人设计的音频生成模型，专门用于生成有用的旋律循环。该模型在Splice样本库中的旋律循环数据集上进行了微调，能够生成立体声音频，音频频率为32kHz。与v0.1版本相比，v0.2版本使用了三倍的独特样本，并且模型大小从中等提升到了大型。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...