OuteTTS-0.1-350M

OuteTTS-0.1-350M

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合成。该模型基于LLaMa架构,使用350M参数,展示了直接使用语言模型进行语音合成的潜力。它通过三个步骤处理音频:使用WavTokenizer进行音频标记化、CTC强制对齐创建精确的单词到音频标记映射、以及遵循特定格式的结构化提示创建。OuteTTS的主要优点包括纯语言建模方法、声音克隆能力、与llama.cpp和GGUF格式的兼容性。
020
CosyVoice语音生成大模型2.0-0.5B

CosyVoice语音生成大模型2.0-0.5B

CosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型,支持零样本、跨语言的语音合成,能够根据文本内容直接生成相应的语音输出。该模型由通义实验室提供,具有强大的语音合成能力和广泛的应用场景,包括但不限于智能助手、有声读物、虚拟主播等。模型的重要性在于其能够提供自然、流畅的语音输出,极大地丰富了人机交互的体验。
020
SoundStorm

SoundStorm

SoundStorm是由Google Research开发的一种音频生成技术,它通过并行生成音频令牌来大幅减少音频合成的时间。这项技术能够生成高质量、与语音和声学条件一致性高的音频,并且可以与文本到语义模型结合,控制说话内容、说话者声音和说话轮次,实现长文本的语音合成和自然对话的生成。SoundStorm的重要性在于它解决了传统自回归音频生成模型在处理长序列时推理速度慢的问题,提高了音频生成的效率和质量。
020
讯飞A.I.智能客服解决方案

讯飞A.I.智能客服解决方案

A.I.智能客服解决方案是科大讯飞基于其先进的语音技术,为企业提供的一套完整的客户服务系统。该系统通过电话、Web、APP、小程序、自助终端等多种渠道,实现智能外呼、智能接听、语音导航、在线文字客服、质检分析、坐席辅助等功能。它通过高识别率的语音识别引擎、自然流畅的语音合成技术、智能打断能力、IVR导航以及客服平台中间件等技术,帮助企业提高客服效率,降低人力成本,同时提升客户服务体验。
020
科大讯飞-AI虚拟主播

科大讯飞-AI虚拟主播

科大讯飞AI虚拟主播解决方案利用讯飞的语音合成、人脸建模、形象驱动、图像处理等多项人工智能技术,实现了文本到视频的自动输出,并支持主播多语言视频生成。AI虚拟主播系统是“一站式虚拟主播视频生产和编辑服务”的系统,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析。
020
Deepgram Voice Agent API

Deepgram Voice Agent API

Deepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别和语音合成模型提供支持,能够自然且实时地听、思考和说话。Deepgram致力于通过其语音代理API推动语音优先AI的未来,通过集成先进的生成AI技术,打造能够进行流畅、类似人类语音代理的业务世界。
020
Sesame CSM

Sesame CSM

CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
020
Llasa-3B

Llasa-3B

Llasa-3B 是一个强大的文本到语音(TTS)模型,基于 LLaMA 架构开发,专注于中英文语音合成。该模型通过结合 XCodec2 的语音编码技术,能够将文本高效地转换为自然流畅的语音。其主要优点包括高质量的语音输出、支持多语言合成以及灵活的语音提示功能。该模型适用于需要语音合成的多种场景,如有声读物制作、语音助手开发等。其开源性质也使得开发者可以自由探索和扩展其功能。
020
Bailing-TTS

Bailing-TTS

Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列,专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构,通过多阶段训练过程,有效对齐文本和语音标记,实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果,对于方言语音合成领域具有重要意义。
020
CosyVoice 2

CosyVoice 2

CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。该模型在多模态大型语言模型(LLMs)中具有重要的应用,特别是在交互体验中,响应延迟和实时因素对语音合成至关重要。CosyVoice 2通过有限标量量化提高语音标记的码本利用率,简化了文本到语音的语言模型架构,并设计了块感知的因果流匹配模型以适应不同的合成场景。它在大规模多语言数据集上训练,实现了与人类相当的合成质量,并具有极低的响应延迟和实时性。
030
Azure 认知服务语音

Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。
020
Llasa

Llasa

Llasa是一个基于Llama框架的文本到语音(TTS)基础模型,专为大规模语音合成任务设计。该模型利用16万小时的标记化语音数据进行训练,具备高效的语言生成能力和多语言支持。其主要优点包括强大的语音合成能力、低推理成本和灵活的框架兼容性。该模型适用于教育、娱乐和商业场景,能够为用户提供高质量的语音合成解决方案。目前该模型在Hugging Face上免费提供,旨在推动语音合成技术的发展和应用。
020
AI ContentCraft

AI ContentCraft

AI ContentCraft 是一个强大的内容创作平台,旨在帮助创作者快速生成故事、播客脚本和多媒体内容。它通过集成文本生成、语音合成和图像生成技术,为创作者提供一站式的解决方案。该工具支持中英文内容转换,适合需要高效创作的用户。其技术栈包括 DeepSeek AI、Kokoro TTS 和 Replicate API,确保高质量的内容生成。产品目前开源免费,适合个人和团队使用。
020
小视频宝

小视频宝

小视频宝(ClipTurbo)是一个AI驱动的视频生成工具,旨在帮助用户轻松创建高质量的营销视频。该工具利用AI技术处理文案、翻译、图标匹配和TTS语音合成,最终使用manim渲染视频,避免了纯生成式AI被平台限流的问题。小视频宝支持多种模板,用户可以根据需要选择分辨率、帧率、宽高比或屏幕方向,模板将自动适配。此外,它还支持多种语音服务,包括内置的EdgeTTS语音。目前,小视频宝仍处于早期开发阶段,仅提供给三花AI的注册用户。
020
Kokoro-82M

Kokoro-82M

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音(TTS)模型。它具有8200万参数,使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本,并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一,显示出其在参数规模和数据使用上的高效性。它支持美国英语和英国英语,可用于生成高质量的语音输出。
020
OpenAI.fm

OpenAI.fm

OpenAI.fm 是一个互动演示平台,允许开发者体验 OpenAI API 中的最新文本转语音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。该技术能够生成自然流畅的语音,使得文本内容生动而易于理解。它适用于各种应用场景,尤其是在语音助手和内容创作方面,能够帮助开发者更好地与用户沟通,提升用户体验。该产品定位于高效的语音合成,适合希望整合语音功能的开发者。
020
TTS Free Online免费文本转语音

TTS Free Online免费文本转语音

TTS-Free Online是一个免费的文字生成语音(Text-to-Speech, TTS)网站,可以帮助用户一键生成语音文件。TTS-Free Online支持多种语言和声音选项,包含各种方言(东北话、陕西话、粤语、闽南语)。用户可以通过TTS-Free Online将文本内容转换为高质量的语音文件,支持自定义语速、音调,一键生成自然语音,适用于有声书、视频配音和无障碍场景。
020
Llasa-1B

Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构,通过结合 XCodec2 代码本中的语音标记,能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练,支持从纯文本生成语音,也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音,适用于多种语音合成场景,如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证,禁止商业用途。
020
EaseVoice Trainer

EaseVoice Trainer

EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
020
MaskGCT TTS Demo

MaskGCT TTS Demo

MaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音(TTS)演示,由Hugging Face平台上的amphion提供。该模型利用深度学习技术,将文本转换为自然流畅的语音,适用于多种语言和场景。MaskGCT模型因其高效的语音合成能力和对多种语言的支持而受到关注。它不仅可以提高语音识别和合成的准确性,还能在不同的应用场景中提供个性化的语音服务。目前,该产品在Hugging Face平台上提供免费试用,具体价格和定位信息需进一步了解。
050
配音神器

配音神器

配音神器是一款专业的文字转语音配音软件,它采用了先进的语音合成技术,为用户提供简单高效的配音服务。拥有100多位智能主播,支持男声、女声、童声、特色情绪声音以及多种外语和方言配音,适用于:短视频自媒体配音、广告宣传配音、影视解说配音、游戏解说配音、教师微课配音、企业宣传片配音、站台播报、地摊商场叫卖配音等场景的配音需求。
0200
配音神器

配音神器

配音神器是一款专业的文字转语音配音软件,它采用了先进的语音合成技术,为用户提供简单高效的配音服务。拥有100多位智能主播,支持男声、女声、童声、特色情绪声音以及多种外语和方言配音,适用于:短视频自媒体配音、广告宣传配音、影视解说配音、游戏解说配音、教师微课配音、企业宣传片配音、站台播报、地摊商场叫卖配音等场景的配音需求。
080
字幕说-在线语音合成、字幕及视频生成工具

字幕说-在线语音合成、字幕及视频生成工具

字幕说是一款自媒体人必备的在线语音合成、字幕及视频生成工具,免费在线合成如同真人一般的配音,语音及字幕视频,自媒体人还可免费在线配音获取同步字幕,制作视频无需出镜。字幕说还提供音文对齐、在线视频编辑、在线语音修复等强大功能,帮助你提高创作效率和质量。
080
Cloud TTS

Cloud TTS

Cloud TTS 是一款免费的在线语音合成工具,可以将文本文字内容转换成语音进行在线朗读。用户只需在文本框内输入相关文字内容,该在线工具便可以自动将文本转换成自然通顺的语音,支持多种语言,并允许用户调整语音速度、音量等参数,实现文本转语音的快捷转换。其简洁易用的界面、强大的功能和广泛的应用场景,使得它成为非常实用的在线TTS工具之一。
0110