Fish Speech V1.2

1年前发布 58 0 0

Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音（TTS）模型。该模型代表了语音合成技术的最新进展，能够提供高质量的语音输出，适用于多种语言环境。

收录时间：

2025-05-30

打开网站手机查看

语音处理 # 多语言支持 # 开源 # 文本到语音 # 高质量语音

Fish Speech V1.2

Fish Speech V1.2

Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音（TTS）模型。该模型代表了语音合成技术的最新进展，能够提供高质量的语音输出，适用于多种语言环境。

数据统计

相关导航

FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

VoiSpark

VoiSpark是一个AI语音生成平台，能生成逼真的文本转语音，克隆声音，并为视频、播客等定制独特AI声音。该平台具有100%免费试用。

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

audiblez

Audiblez是一个利用Kokoro高质量语音合成技术，将普通电子书（.epub格式）转换为.m4b格式有声书的工具。它支持多种语言和声音，用户可以通过简单的命令行操作完成转换，极大地丰富了电子书的阅读体验，尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发，遵循MIT许可证免费开源。

OptiSpeech

OptiSpeech是一个高效、轻量级且快速的文本到语音模型，专为设备端文本到语音转换设计。它利用了先进的深度学习技术，能够将文本转换为自然听起来的语音，适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持，显著加速了开发进程。

Cols.ai

Cols.ai 的 AI Phone Calling Platform 是一款旨在实现无缝人类语音通信的AI产品。它能够与电话系统连接，处理呼入电话，并以个性化的上下文进行呼出电话。该平台通过个性化对话提升销售转化率和客户满意度，适用于销售、客户支持、数据收集等多种商业场景。

Voiser AI AI Transcriber

AI Transcriber: Speech to Text 是一款利用人工智能技术将语音备忘录、会议、访谈和视频转换成文字的应用。它不仅支持WhatsApp语音转录和通话录音转录，还具备多语言支持和自动总结功能。这款应用的主要优点在于其快速准确的AI转录能力，能够帮助用户节省时间并简化任务。产品背景信息显示，Voiser AI 是该应用的开发者，提供包括隐私政策和使用条款在内的详细信息。该应用免费下载，但提供应用内购买服务。

Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务，支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型，提高听录的准确度。此外，该服务还支持实时语音转文本、语音翻译、文本转语音等功能，适用于多种商业场景，如字幕生成、通话后听录分析、视频翻译等。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...