Whisper large-v3-turbo

4个月前发布 2 00

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。

收录时间:
2025-05-30
Whisper large-v3-turboWhisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。

一丢导航 - 上一丢,不易丢

数据统计

相关导航

Prismy

Prismy

Prismy是一个基于GitHub的AI驱动本地化平台,旨在帮助产品团队节省时间,快速将产品推向多语言市场。它通过集成GitHub和Intercom等工具,自动化翻译流程,减少手动任务和代码冲突,让开发人员专注于产品开发。Prismy的主要优点包括高质量的AI翻译、自定义术语一致性、品牌风格适配、上下文信息提供以及自动同步内容源。产品背景信息显示,Prismy由一支专业的团队开发,旨在解决多语言产品发布的痛点,通过技术创新提高效率。Prismy提供免费试用,适合需要快速本地化产品的团队使用。
Translation Agent WebUI

Translation Agent WebUI

translation-agent-webui是一个基于Gradio的Web界面,用于Andrewyng翻译代理。它支持自动检测输入文本语言、标记化文本单词、突出显示翻译差异,并支持多种AI翻译API,包括groq、openai、cohere、ollama、together AI和Huggingface Inference API等。这个工具的主要优点是用户友好的界面和对多种语言的支持,使得翻译任务更加便捷和高效。产品背景信息显示,该工具是基于开源模型LlaMax3构建的,该模型在102种语言上有广泛的训练集。
ultravox-v0_4_1-llama-3_1-8b

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
TransVIP

TransVIP

TransVIP是由微软研究院开发的一个创新的语音到语音翻译系统,它能够在翻译过程中保留说话者的声音特征和等时性(即说话的节奏和停顿),这对于视频配音等场景非常有用。TransVIP通过联合概率实现端到端的推理,同时利用不同的数据集进行级联处理。该技术的主要优点包括高适应性、声音特征保留以及等时性保持,这使得它在多语言交流和内容本地化领域具有重要价值。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...