热门

Voice Cursor

11个月前发布 34 00

Voice Cursor是一个基于Gemini 2.0原生音频能力的实验性文本编辑器，它展示了如何将Gemini的新文本到语音API集成到文本编辑器中，以实现流畅、上下文的声音生成。这个项目不仅展示了Gemini 2.0的强大新功能，还提供了一个实际应用的示例，允许开发者和用户探索和利用这一新技术。产品背景信息包括Google Creat...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # Gemini 2.0 # Google Creative Lab # 实验性项目 # 文本到语音 # 无障碍技术

Voice Cursor

Voice Cursor

Voice Cursor是一个基于Gemini 2.0原生音频能力的实验性文本编辑器，它展示了如何将Gemini的新文本到语音API集成到文本编辑器中，以实现流畅、上下文的声音生成。这个项目不仅展示了Gemini 2.0的强大新功能，还提供了一个实际应用的示例，允许开发者和用户探索和利用这一新技术。产品背景信息包括Google Creative Lab的创新项目，旨在推动技术边界并提供新的交互方式。产品目前是免费的，主要面向开发者和技术爱好者，适合那些寻求创新解决方案以提高生产力和无障碍访问的个人或团队。

数据统计

相关导航

Paper-to-Podcast

Paper-to-Podcast是一个将学术论文转换成播客形式的工具，通过模拟三个人的讨论来让听众以更自然和人性化的方式理解论文内容。它不仅使复杂的信息更易于吸收，还提供了宝贵的洞见和批判性思考。该工具使用了OpenAI API进行文本到语音的转换，生成具有不同角色特点的逼真声音，使得听众可以在通勤或旅行时通过听而不是读来吸收研究论文的内容。

Text to Santa Videos by Gan.AI

Text to Santa Videos by Gan.AI是一个在线平台，允许用户创建个性化的圣诞老人视频，为亲人和朋友带去节日的问候。该平台通过节日主题的虚拟形象、个性化剧本和直接发送到邮箱的视频，提供了一种新颖的个性化视频制作和分享方式。它结合了最新的人工智能技术，如文本到语音和头像APIs，以及视频录制和个性化功能，使得用户可以大规模地录制和个性化视频。产品背景信息显示，该平台已经为成千上万的客户生成了数百万视频，并且具有强大的功能，如AI唇形同步和声音克隆、免费视频录制器、AI着陆页等。价格方面，用户可以免费开始使用，具体定价信息需要访问官方网站查询。

OuteTTS-0.2-500M

OuteTTS-0.2-500M是基于Qwen-2.5-0.5B构建的文本到语音合成模型，它在更大的数据集上进行了训练，实现了在准确性、自然度、词汇量、声音克隆能力以及多语言支持方面的显著提升。该模型特别感谢Hugging Face提供的GPU资助，支持了模型的训练。

Kokoro-82M

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本，并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一，显示出其在参数规模和数据使用上的高效性。它支持美国英语和英国英语，可用于生成高质量的语音输出。

Auralis

Auralis是一个文本到语音（TTS）引擎，能够将文本快速转换为自然语音，支持语音克隆，并且处理速度极快，可以在几分钟内处理完整本小说。该产品以其高速、高效、易集成和高质量的音频输出为主要优点，适用于需要快速文本到语音转换的场景。Auralis基于Python API，支持长文本流式处理、内置音频增强、自动语言检测等功能。产品背景信息显示，Auralis由AstraMind AI开发，旨在提供一种实用于现实世界应用的文本到语音解决方案。产品价格未在页面上明确标注，但代码库在Apache 2.0许可下发布，可以免费用于项目中。

CSM 1B

CSM 1B 是一个基于 Llama 架构的语音生成模型，能够从文本和音频输入中生成 RVQ 音频代码。该模型主要应用于语音合成领域，具有高质量的语音生成能力。其优势在于能够处理多说话人的对话场景，并通过上下文信息生成自然流畅的语音。该模型开源，旨在为研究和教育目的提供支持，但明确禁止用于冒充、欺诈或非法活动。

MaskGCT TTS Demo

MaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音（TTS）演示，由Hugging Face平台上的amphion提供。该模型利用深度学习技术，将文本转换为自然流畅的语音，适用于多种语言和场景。MaskGCT模型因其高效的语音合成能力和对多种语言的支持而受到关注。它不仅可以提高语音识别和合成的准确性，还能在不同的应用场景中提供个性化的语音服务。目前，该产品在Hugging Face平台上提供免费试用，具体价格和定位信息需进一步了解。

Fish Agent V0.1 3B

Fish Agent V0.1 3B是一个开创性的语音转语音模型，能够以前所未有的精确度捕捉和生成环境音频信息。该模型采用了无语义标记架构，消除了传统语义编码器/解码器的需求。此外，它还是一个尖端的文本到语音(TTS)模型，训练数据涵盖了700,000小时的多语言音频内容。作为Qwen-2.5-3B-Instruct的继续预训练版本，它在200B语音和文本标记上进行了训练。该模型支持包括英语、中文在内的8种语言，每种语言的训练数据量不同，其中英语和中文各约300,000小时，其他语言各约20,000小时。

暂无评论

您必须登录才能参与评论！

none

暂无评论...