Sesame CSM

1年前发布 85 0 0

CSM 是一个由 Sesame 开发的对话式语音生成模型，它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构，并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用，例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音，并且可以通过上下文信息优化语音输出。该模型目前是开源的，适用于研究和教育目的...

收录时间：

2025-06-01

打开网站手机查看

语音处理 # 交互式语音 # 人工智能 # 开源 # 教育 # 语音合成

Sesame CSM

Sesame CSM

CSM 是一个由 Sesame 开发的对话式语音生成模型，它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构，并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用，例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音，并且可以通过上下文信息优化语音输出。该模型目前是开源的，适用于研究和教育目的。

数据统计

相关导航

Omi AI

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

Fish Audio文本转语音

文本转语音技术是一种将文本信息转换为语音的技术，广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音，提高了信息获取的便捷性，尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。

EaseVoice Trainer

EaseVoice Trainer 是一个后端项目，旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进，注重用户体验和系统的可维护性。其设计理念不同于原始项目，旨在提供更模块化和定制化的解决方案，适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。

WhisperNER

WhisperNER是一个结合了自动语音识别（ASR）和命名实体识别（NER）的统一模型，具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型，并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务，提高了处理效率和准确性，尤其在多语言和跨领域的场景中具有显著优势。

Fish Speech V1.2

Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音（TTS）模型。该模型代表了语音合成技术的最新进展，能够提供高质量的语音输出，适用于多种语言环境。

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

Open-LLM-VTuber

Open-LLM-VTuber 是一个开源项目，旨在通过语音与大型语言模型（LLM）进行交互，具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台，允许用户选择不同的语音识别和语音合成后端，以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...