InternVL2_5-78B

11个月前发布 29 00

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

收录时间:
2025-05-30
InternVL2_5-78BInternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化,支持包括图像、文本到文本的转换在内的多种功能,适用于需要处理视觉和语言信息的复杂任务。

数据统计

相关导航

ultravox-v0_4_1-llama-3_1-70b

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景,如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可,由Fixie.ai开发。
InternVL2-8B-MPO

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型(MLLM),通过引入混合偏好优化(MPO)过程,增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线,并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面,InternVL2-8B-MPO基于InternVL2-8B初始化,并使用MMPR数据集进行微调,展现出更强的多模态推理能力,且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率,超越InternVL2-8B 8.7个点,且表现接近于大10倍的InternVL2-76B。
InternVL2_5-8B

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型(MLLM),它在InternVL 2.0的基础上进行了显著的训练和测试策略增强,以及数据质量提升。该模型采用'ViT-MLP-LLM'架构,集成了新增量预训练的InternViT与多种预训练语言模型,如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能,包括图像和视频理解、多语言理解等。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...