StreamSpeech

12个月前发布 28 00

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。

收录时间:
2025-05-29
StreamSpeechStreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。

数据统计

相关导航

DuRT

DuRT

DuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译,支持多种语音识别方法,提高了识别的准确度和语言支持范围。该产品以悬浮框形式展示结果,方便用户在使用过程中快速获取信息。其主要优点包括高准确度、隐私保护(不收集用户信息)以及便捷的操作体验。DuRT 定位为一款高效生产力工具,旨在帮助用户在多语言环境下更高效地进行沟通和工作。目前产品可在 Mac App Store 下载,具体价格未在页面中明确提及。
inFin

inFin

inFin:Infinite AI Voice Notes 是一款专为提高工作效率而设计的语音笔记应用。它利用先进的人工智能技术,将录音实时转换为文字,并支持中英文的无限实时翻译。该产品的主要优点在于其简洁的用户界面和强大的功能,能够在各种场景下为用户提供便捷的记录和翻译服务。产品背景信息显示,它是由昱晗马开发,旨在为用户提供一个简单但卓越的语音记录解决方案。该应用是免费的,适合需要高效记录和翻译的用户。
ultravox-v0_4_1-llama-3_1-8b

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。该模型能够同时处理语音和文本输入,例如,一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发,采用MIT许可。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...