ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。该模型能够同时处理语音和文本输入,例如,一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发,采用MIT许可。
010
tablegpt-agent

tablegpt-agent

TableGPT-agent 是一个基于 TableGPT2 的预构建代理模型,专为处理表格数据的问答任务而设计。它基于 Langgraph 库开发,提供用户友好的交互界面,能够高效处理与表格相关的复杂问题。TableGPT2 是一个大型多模态模型,能够将表格数据与自然语言处理相结合,为数据分析和知识提取提供强大的技术支持。该模型适用于需要快速准确处理表格数据的场景,如数据分析、商业智能和学术研究等。
010
Amazon Nova

Amazon Nova

Amazon Nova是亚马逊云科技(AWS)推出的一系列生成式AI基础模型(Foundation Models),可以为用户提供高效、低成本的多模态处理能力。Amazon Nova系列模型包括Amazon Nova 理解模型、Amazon Nova 创意内容生成模型、Amazon Nova Act 智能体。Amazon Nova系列模型支持多种语言,并完美结合准确性、速度与成本效率,适用于各种智能任务。Amazon Nova系列模型目前仅在亚马逊的Bedrock平台上提供早期试用。
010
ultravox-v0_4_1-llama-3_1-8b

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
010
Apollo-LMMs

Apollo-LMMs

Apollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间,揭示了驱动性能的关键因素,提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency',使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上,大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合,以及一个新型的基准测试ApolloBench,用于高效评估。
020