ElevenLabs Scribe

1年前发布 52 0 0

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Dee...

收录时间：

2025-05-30

打开网站手机查看

语音处理 # API # 多语言 # 实时应用 # 语音识别 # 高精度

ElevenLabs Scribe

ElevenLabs Scribe

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。它显著降低了传统服务不足语言（如塞尔维亚语、粤语和马拉雅拉姆语）的错误率，这些语言在竞争模型中的错误率通常超过40%。Scribe 提供 API 接口供开发者集成，并将推出低延迟版本以支持实时应用。

数据统计

相关导航

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

LSLM

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术，实现了在说话时同时监听的能力，增强了实时交互性，尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成，以及流式自监督学习(SSL)编码器进行实时音频输入，通过三种融合策略（早期融合、中期融合和晚期融合）探索最佳交互平衡。

音刻

音刻转录是一款专注于音视频转录的在线工具，通过先进的语音识别技术，能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具，旨在帮助用户节省时间和精力，提升工作效率。音刻转录提供免费试用版本，用户可以体验其核心功能，付费版本则提供更多高级功能和大文件支持，满足不同用户的需求。

Mumble Note

Mumble Note是一款AI语音速记工具，可以将用户的口述内容转换为清晰的笔记、待办事项和输出。该产品具有隐私保护、智能问答等功能，为用户提供高效的语音记录与管理体验。

Encounter AI Advisor

Encounter AI - Advisor是一款利用SRI的隐马尔可夫模型（HMM）基础的语音识别技术，为多单位餐厅运营商提供实时的音频监控服务。它通过先进的技术，精准跟踪和分析餐厅层面的每一段对话，消除了常见的“他说/她说”的主观性问题，为零售领导者提供实时对话分析，帮助他们实现目标，增加收入。

Llama3-s v0.2

Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点，专注于提升语音理解能力。该模型通过早期融合语义标记的方式，利用社区反馈进行改进，以简化模型结构，提高压缩效率，并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定，并提供了实时演示，允许用户亲自体验其功能。尽管模型仍在早期开发阶段，存在一些限制，如对音频压缩敏感、无法处理超过10秒的音频等，但团队计划在未来更新中解决这些问题。

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...