InternVL2_5-1B

11个月前发布 37 00

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),它在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs),如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器...

收录时间:
2025-06-02
InternVL2_5-1BInternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),它在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs),如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据,通过动态高分辨率训练方法,增强了模型处理多模态数据的能力。

数据统计

相关导航

ultravox-v0_4_1-llama-3_1-70b

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景,如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可,由Fixie.ai开发。
InternVL2_5-8B

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型(MLLM),它在InternVL 2.0的基础上进行了显著的训练和测试策略增强,以及数据质量提升。该模型采用'ViT-MLP-LLM'架构,集成了新增量预训练的InternViT与多种预训练语言模型,如InternLM 2.5和Qwen 2.5,使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能,包括图像和视频理解、多语言理解等。
Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频,为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外,Qwen2-VL还支持多语言,除了英语和中文,还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增强了其多模态处理能力。
InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型,旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色,能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术,使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景,如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。
Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。
InternVL2_5-4B

InternVL2_5-4B

InternVL2_5-4B是一个先进的多模态大型语言模型(MLLM),在InternVL 2.0的基础上进行了核心模型架构的维护,并在训练和测试策略以及数据质量上进行了显著增强。该模型在处理图像、文本到文本的任务中表现出色,特别是在多模态推理、数学问题解决、OCR、图表和文档理解等方面。作为开源模型,它为研究人员和开发者提供了强大的工具,以探索和构建基于视觉和语言的智能应用。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...