多模态

排序

发布更新浏览点赞

Fluxx.AI

FLUX.1 Kontext是一款革命性的多模态AI模型，将文本指令与图像编辑和生成相结合，实现精准本地化编辑，保持角色一致性和风格连贯性。该产品适用于营销内容创作、电影制作和设计等专业工作流程。

0440

OneReach.ai

OneReach.ai是一个平台，旨在帮助组织编排提升员工和客户体验的高级多模态AI代理。它让用户轻松打造智能数字劳动者(IDWs)，并提供强大的工作流自动化功能。

0390

视频生成 # AI # 员工体验 # 多模态

OmniGen2

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

0340

图像生成 # 人工智能 # 图像生成 # 图像编辑

Fotol AI

Fotol AI是一个提供AGI技术和服务的网站，致力于为用户提供强大的人工智能解决方案。其主要优点包括先进的技术支持、丰富的功能模块和广泛的应用领域。Fotol AI的定位为成为用户探索AGI的首选平台，并为用户提供灵活多样的AI解决方案。

0340

视频生成 # AGI # AI解决方案 # 多模态

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

0400

智能聊天机器人 # 图像描述 # 多模态 # 开源

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO是一个多模态大型语言模型系列，展示了卓越的整体性能。该系列基于InternVL2.5和混合偏好优化构建。它集成了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。该模型在多模态任务中表现出色，能够处理包括图像和文本在内的多种数据类型，适用于需要理解和生成多模态内容的场景。

0400

图像生成 # 图像处理 # 多模态 # 大型语言模型

MNN 大模型 Android App

MNN 大模型 Android App 是阿里巴巴开发的一款基于大语言模型（LLM）的安卓应用。它支持多种模态输入和输出，包括文本生成、图像识别、音频转录等。该应用通过优化推理性能，确保在移动设备上高效运行，同时保护用户数据隐私，所有处理均在本地完成。它支持多种领先的模型提供商，如 Qwen、Gemma、Llama 等，适用于多种场景。

0730

数据分析 # 多模态 # 大语言模型 # 安卓应用

InternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM)，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs)，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据，通过动态高分辨率训练方法，增强了模型处理多模态数据的能力。

0500

文案写作 # 图像识别 # 多模态 # 大型语言模型

智谱AI大模型开放平台

智谱AI大模型开放平台是一个提供多种AI模型服务的平台，支持开发者和企业快速接入大模型API，构建变革性AI体验。平台提供GLM-4系列大模型，包括免费模型GLM-4-Flash、全自研最新版本GLM-4-Plus、支持200万上下文的GLM-4-Long等。此外，还提供多模态大模型，如视觉能力GLM-4V-Plus、文生图CogView-3-Plus、文生视频CogVideoX。平台面向开发者提供模型API、Alltools API、批处理API等服务，面向企业服务提供医疗健康、汽车、游戏娱乐、文旅、智能终端、智能制造、消费等行业解决方案。

0510

开发者工具 # AI模型 # 多模态 # 大模型

InternVL2_5-8B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，它基于InternVL2.5和混合偏好优化构建。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在新版本中保留了与InternVL 2.5及其前身相同的模型架构，遵循“ViT-MLP-LLM”范式。该模型支持多图像和视频数据，通过混合偏好优化（MPO）进一步提升模型性能，使其在多模态任务中表现更优。

0310

图像生成 # 图像处理 # 多模态 # 大型语言模型

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

0430

智能聊天机器人 # AI模型 # 多模态 # 多语言

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

0270

语音处理 # 多模态 # 情感分析 # 自然语言处理

InternVL2_5-38B

InternVL 2.5是OpenGVLab推出的多模态大型语言模型系列，它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型系列能够处理图像、文本和视频数据，具备多模态理解和生成的能力，是当前多模态人工智能领域的前沿产品。InternVL 2.5系列模型以其高性能和开源特性，为多模态任务提供了强大的支持。

0320

图像生成 # 图像识别 # 多模态 # 大型语言模型

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO是一个多模态大型语言模型（MLLM），它基于InternVL2.5和混合偏好优化（MPO）构建，展示了优越的整体性能。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在模型架构上保留了与InternVL 2.5及其前身相同的“ViT-MLP-LLM”范式，并引入了对多图像和视频数据的支持。该模型在多模态任务中表现出色，能够处理包括图像描述、视觉问答等多种视觉语言任务。

0310

智能聊天机器人 # 图像描述 # 多模态 # 大型语言模型

WePOINTS

WePOINTS是由微信AI团队开发的一系列多模态模型，旨在创建一个统一框架，容纳各种模态。这些模型利用最新的多模态模型进展和技术，推动内容理解和生成的无缝统一。WePOINTS项目不仅提供了模型，还包括了预训练数据集、评估工具和使用教程，是多模态人工智能领域的重要贡献。

0530

图像生成 # 人工智能 # 图像分割 # 多模态

Ferret-UI-Llama8b

Ferret-UI是首个以用户界面为中心的多模态大型语言模型（MLLM），专为指代表达、定位和推理任务设计。它基于Gemma-2B和Llama-3-8B构建，能够执行复杂的用户界面任务。这个版本遵循了Apple的研究论文，是一个强大的工具，可以用于图像文本到文本的任务，并且在对话和文本生成方面具有优势。

0300

文案写作 # 图像文本到文本 # 多模态 # 大型语言模型

Agent云-智能体云服务平台

Agent AI智能体平台，提供大语言模型LLM、Agent智能体工具、多模态交互、模型微调等服务，助力您的数字员工、智能营销和智能制造项目。

0520

AI企业服务 # agent # Agent AI # Agentsyun

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型（MLLM），专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列，并通过混合偏好优化（MPO）进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入，适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力，为图像-文本到文本的任务提供了一个强大的解决方案。

0390

文案写作 # 人工智能 # 图像-文本处理 # 多模态

Qwen2vl-Flux

Qwen2vl-Flux是一个结合了Qwen2VL视觉语言理解能力的FLUX框架的先进多模态图像生成模型。该模型擅长基于文本提示和视觉参考生成高质量图像，提供卓越的多模态理解和控制。产品背景信息显示，Qwen2vl-Flux集成了Qwen2VL的视觉语言能力，增强了FLUX的图像生成精度和上下文感知能力。其主要优点包括增强的视觉语言理解、多种生成模式、结构控制、灵活的注意力机制和高分辨率输出。

0350

图像生成 # 图像生成 # 多模态 # 深度学习

Pixtral-Large-Instruct-2411

Pixtral-Large-Instruct-2411是由Mistral AI研发的124B参数的大型多模态模型，基于Mistral Large 2构建，展现出前沿级别的图像理解能力。该模型不仅能够理解文档、图表和自然图像，同时保持了Mistral Large 2在文本理解方面的领先地位。它在MathVista、DocVQA、VQAv2等数据集上达到了最先进的性能，是科研和商业应用的强大工具。

0240

图像生成 # 图像理解 # 多模态 # 大型语言模型

DataChain

DataChain是一个现代的Python数据框库，专为人工智能设计。它旨在将非结构化数据组织成数据集，并在本地机器上大规模处理数据。DataChain不抽象或隐藏AI模型和API调用，而是帮助将它们集成到后现代数据堆栈中。该产品以其高效性、易用性和强大的数据处理能力为主要优点，支持多种数据存储和处理方式，包括图像、视频、文本等多种数据类型，并且能够与PyTorch和TensorFlow等深度学习框架无缝对接。DataChain是开源的，遵循Apache-2.0许可协议，免费供用户使用。

0370

数据分析 # 人工智能 # 多模态 # 数据处理

字节trae

Trae字节跳动推出的AI编程工具官网入口网址分享

0340

AI工具集编程工具 # AI IDE # AI工具集 # builder

Gemini 2.0 Family

Gemini 2.0 是谷歌在生成式 AI 领域的重要进展，代表了最新的人工智能技术。它通过强大的语言生成能力，为开发者提供高效、灵活的解决方案，适用于多种复杂场景。Gemini 2.0 的主要优点包括高性能、低延迟和简化的定价策略，旨在降低开发成本并提高生产效率。该模型通过 Google AI Studio 和 Vertex AI 提供，支持多种模态输入，具备广泛的应用前景。

0310

代码辅助 # 低延迟 # 多模态 # 生成式 AI

岩芯数智

岩芯数智是一家专注于人工智能领域的公司，提供多种智能模型服务，包括Yan模型和Dolphin模型。Yan模型是国产化的大模型，支持多模态，承诺为用户提供训练周期短、数据集需求小、性价比更高的服务，帮助各产业链快速、低成本向智能化转型。Dolphin模型则提供智能对话、文章生成、文案摘要等功能，支持私域模型微调，以满足不同行业的需求。

0390

智能聊天机器人 # 人工智能 # 多模态 # 大模型

Kimi k1.5

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

0440

代码辅助 # 多模态 # 强化学习 # 推理

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型，旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色，能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术，使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景，如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。

0360

文案写作 # 图像处理 # 多模态 # 大型语言模型

Pixtral Large

Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型，基于Mistral Large 2构建，具备领先的图像理解能力，能够理解文档、图表和自然图像，同时保持Mistral Large 2在文本理解方面的领先地位。该模型在多模态基准测试中表现优异，特别是在MathVista、ChartQA和DocVQA等测试中超越了其他模型。Pixtral Large在MM-MT-Bench测试中也展现了竞争力，超越了包括Claude-3.5 Sonnet在内的多个模型。该模型适用于研究和教育用途的Mistral Research License (MRL)，以及适用于商业用途的Mistral Commercial License。

0360

文案写作 # AI # 企业应用 # 图像理解

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

0420

文案写作 # 图像文本到文本 # 多模态 # 对话系统

Unified-IO 2

Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模式(图像、文本、音频、动作等)的输入和输出都表示为一个共享的语义空间进行处理。该模型从头开始在大规模的多模态预训练语料上进行训练,使用了多模态的去噪目标进行优化。为了学会广泛的技能,该模型还在120个现有数据集上进行微调,这些数据集包含提示和数据增强。Unified-IO 2在GRIT基准测试中达到了最先进的性能,在30多个基准测试中都取得了强劲的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。

0340

音频处理 # Transformer # 动作 # 图像

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

0420

文案写作 # 多模态 # 多语言支持 # 文本生成

2233.ai

2233.ai是一个提供即买即用人工智能对话服务的网站。用户无需注册账号即可购买并使用服务，享受原生的ChatGPT Plus或Claude Pro体验。该平台强调个人隐私保护，每位用户的对话记录独立存储，确保私密安全。此外，2233.ai承诺无网络限制或封号问题，用户可以随时随地接入服务。价格方面，2233.ai提供的服务价格不到ChatGPT Plus订阅的一半，让更多人能够以更优惠的价格享受到先进的人工智能技术。

0410

智能聊天机器人 # 人工智能 # 创作工具 # 多模态

InternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化，支持包括图像、文本到文本的转换在内的多种功能，适用于需要处理视觉和语言信息的复杂任务。

0330

文案写作 # 图像-文本转换 # 多模态 # 大型语言模型

Gemini 2.5

Gemini 2.5 是谷歌推出的最先进的 AI 模型，具备高效的推理能力和编码性能，能够处理复杂问题，并在多项基准测试中表现出色。该模型引入了新的思维能力，结合增强的基础模型和后期训练，支持更复杂的任务，旨在为开发者和企业提供强大的支持。Gemini 2.5 Pro 可在 Google AI Studio 和 Gemini 应用中使用，适合需要高级推理和编码能力的用户。

0380

代码辅助 # 人工智能 # 多模态 # 开发者工具

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

0450

智能聊天机器人 # 事实验证 # 图像 # 基准测试

OmniHuman-1

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架，能够基于单张人像和运动信号（如音频、视频或其组合）生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题，支持任意宽高比的图像输入，生成逼真的人类视频。它在弱信号输入（尤其是音频）方面表现出色，适用于多种场景，如虚拟主播、视频制作等。

0510

视频创作 # 人工智能 # 内容创作 # 多模态

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据，具备动态高分辨率训练方法，能够在处理多模态数据时提供更好的性能。

0340

文案写作 # 动态高分辨率 # 图像-文本-文本 # 多模态

Doubao-1.5-pro

Doubao-1.5-pro 是由豆包团队开发的高性能稀疏 MoE（Mixture of Experts）大语言模型。该模型通过训练-推理一体化设计，实现了模型性能与推理性能的极致平衡。它在多个公开评测基准上表现出色，尤其在推理效率和多模态能力方面具有显著优势。该模型适用于需要高效推理和多模态交互的场景，如自然语言处理、图像识别和语音交互等。其技术背景基于稀疏激活的 MoE 架构，通过优化激活参数比例和训练算法，实现了比传统稠密模型更高的性能杠杆。此外，该模型还支持动态调整参数，以适应不同的应用场景和成本需求。

0350

数据分析 # 动态调整 # 多模态 # 大语言模型

Qwen2.5-VL

Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型，是视觉语言模型领域的重要进步。它不仅能够识别常见物体，还能分析图像中的文字、图表、图标等复杂内容，并支持对长视频的理解和事件定位。该模型在多个基准测试中表现出色，尤其在文档理解和视觉代理任务中具有显著优势，展现了强大的视觉理解和推理能力。其主要优点包括高效的多模态理解、强大的长视频处理能力以及灵活的工具调用能力，适用于多种应用场景。

0340

图像生成 # 图像识别 # 多模态 # 文档解析

Qmedia

Qmedia 是一个多媒体 AI 内容搜索引擎，支持图文 / 短视频素材搜索，提供内容整合和多模态 RAG 内容问答，具有本地化部署、多模态模型服务等优点。

0370

搜索引擎优化 # AI 搜索引擎 # 内容创作 # 多模态

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite 是 Google 推出的高效语言模型，专为长文本处理和复杂任务优化。它在推理、多模态、数学和事实性基准测试中表现出色，具备简化的价格策略，使得百万级上下文窗口更加经济实惠。Gemini 2.0 Flash-Lite 已在 Google AI Studio 和 Vertex AI 中全面开放，适合企业级生产使用。

0300

文案写作 # AI # 多模态 # 数据分析

InternVL2_5-4B

InternVL2_5-4B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上进行了核心模型架构的维护，并在训练和测试策略以及数据质量上进行了显著增强。该模型在处理图像、文本到文本的任务中表现出色，特别是在多模态推理、数学问题解决、OCR、图表和文档理解等方面。作为开源模型，它为研究人员和开发者提供了强大的工具，以探索和构建基于视觉和语言的智能应用。

0350

文案写作 # Safetensors # TensorBoard # Transformers

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

0460

文案写作 # AI艺术 # 图像生成 # 多模态

CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。它能够像人类一样与图形用户界面（GUI）交互，无需依赖特定操作系统的 API 或网络接口。CUA 的灵活性使其能够在多种数字环境中执行任务，如填写表单、浏览网页等。这一技术的出现标志着 AI 发展的下一步，为 AI 在日常工具中的应用开辟了新的可能性。CUA 目前处于研究预览阶段，通过 Operator 提供给美国的 Pro 用户使用。

0330

生产力 # AI # 多模态 # 强化学习

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型，通过使用ViT增量学习与NTP损失（阶段1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新增量预训练的InternViT与各种预训练的LLMs，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

0280

图像生成 # OCR # 图像识别 # 多模态

MiracleVision

MiracleVision（奇想智能）是美图自研的一款懂美学的AI视觉大模型，以美图深厚的美学沉淀和长期的审美趋势研究作为基础，建立美学数据训练机制和美学评估体系，为MiracleVision大模型生成高品质的图像和稳健的图像质量提供强大的支撑

0390

AI模型框架 AI赋能 # AI模型 # CV大模型 # 图像模型

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型，专为研究多模态 AI 代理而设计。它结合了文本和图像输入，能够生成文本输出，并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干，并结合 CLIP-ConvNeXt-XXLarge 视觉编码器，支持从无标签视频数据中学习时空关系，具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色，特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具，推动了虚拟和现实环境中复杂交互的研究。

0410

文案写作 # AI # 图像 # 多模态

VideoLLaMA3

VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型，专注于图像和视频理解。该模型基于Qwen2.5架构，结合了先进的视觉编码器（如SigLip）和强大的语言生成能力，能够处理复杂的视觉和语言任务。其主要优点包括高效的时空建模能力、强大的多模态融合能力以及对大规模数据的优化训练。该模型适用于需要深度视频理解的应用场景，如视频内容分析、视觉问答等，具有广泛的研究和商业应用潜力。

0390

图像生成 # 图像理解 # 多模态 # 深度学习

MiniCPM-o-2_6

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色，支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异，超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗，能够在iPad等终端设备上高效支持多模态直播。此外，MiniCPM-o 2.6易于使用，支持多种使用方式，包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。

0270

语音处理 # 多模态 # 实时直播 # 视觉理解

EgoLife

EgoLife是一个面向长期、多模态、多视角日常生活的AI助手项目。该项目通过记录六名志愿者一周的共享生活体验，生成了约50小时的视频数据，涵盖日常活动、社交互动等场景。其多模态数据（包括视频、视线、IMU数据）和多视角摄像头系统为AI研究提供了丰富的上下文信息。此外，该项目提出了EgoRAG框架，用于解决长期上下文理解任务，推动了AI在复杂环境中的应用能力。

0310

社交媒体 # AI # 多模态 # 多视角

jina-clip-v2

jina-clip-v2是由Jina AI开发的多语言多模态嵌入模型，支持89种语言的图像检索，能够处理512x512分辨率的图像，提供从64到1024不同维度的输出，以适应不同的存储和处理需求。该模型结合了强大的文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14，通过联合训练创建了对齐的图像和文本表示。jina-clip-v2在多模态搜索和检索方面提供了更准确、更易用的能力，特别是在打破语言障碍、提供跨模态理解和检索方面表现出色。

0380

文案写作 # 图像检索 # 多模态 # 多语言

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

0290

智能聊天机器人 # 图像描述 # 多模态 # 大型语言模型

SmolVLM2

SmolVLM2 是一种轻量级的视频语言模型，旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点，适合在多种设备上运行，包括移动设备和桌面客户端。其主要优点是能够快速处理视频数据并生成高质量的文本输出，为视频内容创作、视频分析和教育等领域提供了强大的技术支持。该模型由 Hugging Face 团队开发，定位为高效、轻量化的视频处理工具，目前处于实验阶段，用户可以免费试用。

0410

文案写作 # 内容创作 # 多模态 # 教育

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

0270

文案写作 # Safetensors # TensorBoard # Transformers

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

0390

文案写作 # 多模态 # 长文本处理 # 问答系统

Janus-Pro-7B

Janus-Pro-7B 是一个强大的多模态模型，能够同时处理文本和图像数据。它通过分离视觉编码路径，解决了传统模型在理解和生成任务中的冲突，提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景，例如图像生成和文本理解。

0390

文案写作 # 人工智能 # 图像生成 # 多模态

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

0340

文案写作 # 图像处理 # 多模态 # 搞笑

InternVL2_5-4B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

0280

图像生成 # 图像处理 # 多模态 # 大型语言模型

UniTok

UniTok是一种创新的视觉分词技术，旨在弥合视觉生成和理解之间的差距。它通过多码本量化技术，显著提升了离散分词器的表示能力，使其能够捕捉到更丰富的视觉细节和语义信息。这一技术突破了传统分词器在训练过程中的瓶颈，为视觉生成和理解任务提供了一种高效且统一的解决方案。UniTok在图像生成和理解任务中表现出色，例如在ImageNet上实现了显著的零样本准确率提升。该技术的主要优点包括高效性、灵活性以及对多模态任务的强大支持，为视觉生成和理解领域带来了新的可能性。

0300

图像生成 # 人工智能 # 图像处理 # 多模态

AI对话【腾讯混元】

腾讯混元大模型是由腾讯研发的大语言模型，具备跨领域知识和自然语言理解能力，实现基于人机自然语言对话的方式，理解用户指令并执行任务，帮助用户实现人获取信息，知识和灵感。

0290

AI对话人工智能引擎 # AIGC # AIGC智能创作 # AI大模型

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

0330

文案写作 # 图像识别 # 多模态 # 大型模型

MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台，它通过指令调优技术，显著提升了多模态大型语言模型（MLLMs）在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集，覆盖了多样化的、推理密集型的任务，并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能，展现了其在教育和研究领域的重要性。

0390

数据分析 # 多模态 # 指令调优 # 推理

InternVL3

InternVL3是由OpenGVLab开源发布的多模态大型语言模型（MLLM），具备卓越的多模态感知和推理能力。该模型系列包含从1B到78B共7个尺寸，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。InternVL3在工业图像分析、3D视觉感知等领域表现出色，其整体文本性能甚至优于Qwen2.5系列。该模型的开源为多模态应用开发提供了强大的支持，有助于推动多模态技术在更多领域的应用。

0340

图像生成 # AI # 图像处理 # 多模态

OmAgent.com

OmAgent是一个多模态原生代理框架，用于智能设备等。它采用分治算法高效解决复杂任务，能预处理长视频并以类似人类的精度进行问答，还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格，但从功能来看，主要面向需要高效任务处理和智能交互的用户群体，如开发者、企业等。

0320

智能聊天机器人 # 任务处理 # 多模态 # 智能设备

DevMind AI

DevMind AI旨在无缝整合文本、图像、视频、音频和代码等多种模型的推理能力，帮助您像专业人士一样进行开发！DevMind AI通过AI功能增强您的项目。

0350

音频处理 # 图像识别 # 多模态 # 文本分析

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

0340

文案写作 # 图像-文本-文本 # 多模态 # 大语言模型

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

0330

图像生成 # Transformer # 图像生成 # 多模态

InternVL2_5-38B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化（MPO）构建。该系列模型在多模态任务中表现出色，能够处理图像、文本和视频数据，并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式，通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外，模型还引入了多图像和视频数据的支持，进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型，证明了其在多模态领域的领先地位。

0400

文案写作 # 图像处理 # 多模态 # 大型语言模型

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型（VLM），选用Qwen2.5-1.5B-instruct模型作为语言模型（LLM），并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练，包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源，旨在推动多模态性能的发展，特别是在图像和文本的结合处理方面。

0600

文案写作 # 图像识别 # 多模态 # 文本生成

DeepSeek Japanese

DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型，专注于开源模型和创新训练方法。其 R1 系列模型在逻辑推理和问题解决方面表现出色，采用强化学习和混合专家框架优化性能，以低成本实现高效训练。DeepSeek 的开源策略推动了社区创新，同时引发了关于 AI 竞争和开源模型影响力的行业讨论。其免费且无需注册的使用方式进一步降低了用户门槛，适合广泛的应用场景。

0500

代码辅助 # AI # 多模态 # 开源

Gemini 2.0 Flash Thinking Experimental

Gemini Flash Thinking 是 Google DeepMind 推出的最新 AI 模型，专为复杂任务设计。它能够展示推理过程，帮助用户更好地理解模型的决策逻辑。该模型在数学和科学领域表现出色，支持长文本分析和代码执行功能。它旨在为开发者提供强大的工具，以推动人工智能在复杂任务中的应用。

0410

文案写作 # AI # 代码执行 # 复杂任务

CLaMP 3

CLaMP 3 是一种先进的音乐信息检索模型，通过对比学习对齐乐谱、演奏信号、音频录音与多语言文本的特征，支持跨模态和跨语言的音乐检索。它能够处理未对齐的模态和未见的语言，展现出强大的泛化能力。该模型基于大规模数据集 M4-RAG 训练，涵盖全球多种音乐传统，支持多种音乐检索任务，如文本到音乐、图像到音乐等。

0250

音乐创作 # 多模态 # 多语言 # 对比学习

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

0410

文案写作 # 多模态 # 大型语言模型 # 文本生成

OpenAI Agents SDK

OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包。它基于 OpenAI 的先进模型能力，如高级推理、多模态交互和新的安全技术，为开发者提供了一种简化的方式来构建、部署和扩展可靠的智能体应用。该工具包不仅支持单智能体和多智能体工作流的编排，还集成了可观测性工具，帮助开发者追踪和优化智能体的执行流程。其主要优点包括易于配置的 LLM 模型、智能的智能体交接机制、可配置的安全检查以及强大的调试和性能优化功能。该工具包适用于需要自动化复杂任务的企业和开发者，旨在通过智能体技术提升生产力和效率。

0270

生产力 # 人工智能 # 多模态 # 智能体

腾讯混元大模型

04430

AI训练模型 # AIGC # AIGC智能创作 # AI大模型

MiracleVision奇想智能

美图推出的AI视觉大模型，支持AI图像、设计和视频创作

06020

AI训练模型 # AI模型 # CV大模型 # 图像模型

没有了

Fluxx.AI

OneReach.ai

OmniGen2

Fotol AI

SmolVLM-500M-Instruct

InternVL2_5-2B-MPO

MNN 大模型 Android App

InternVL2_5-1B

智谱AI大模型开放平台

InternVL2_5-8B-MPO

Phi-4-multimodal-instruct

EMOVA

InternVL2_5-38B

InternVL2_5-1B-MPO

WePOINTS

Ferret-UI-Llama8b

Agent云-智能体云服务平台

InternVL2_5-4B-MPO-AWQ

Qwen2vl-Flux

Pixtral-Large-Instruct-2411

DataChain

字节trae

Gemini 2.0 Family

岩芯数智

Kimi k1.5

InternVL2_5-26B-MPO-AWQ

Pixtral Large

POINTS-Qwen-2-5-7B-Chat

Unified-IO 2

Qwen2-VL-7B

2233.ai

InternVL2_5-78B

Gemini 2.5

M2RAG

OmniHuman-1

InternVL2_5-2B

Doubao-1.5-pro

Qwen2.5-VL

Qmedia

Gemini 2.0 Flash-Lite

InternVL2_5-4B

Stable Diffusion 3.5 Medium

CUA

InternViT-6B-448px-V2_5

MiracleVision

Magma-8B

VideoLLaMA3

MiniCPM-o-2_6

EgoLife

jina-clip-v2

InternVL2_5-26B-MPO

SmolVLM2

InternVL2_5-8B

Aria-Base-64K

Janus-Pro-7B

SmolVLM-256M-Instruct

InternVL2_5-4B-MPO

UniTok

AI对话【腾讯混元】

Valley-Eagle-7B

MAmmoTH-VL

InternVL3

OmAgent.com

DevMind AI

InternVL2-8B-MPO

Janus-Pro-1B

InternVL2_5-38B-MPO

Aquila-VL-2B-llava-qwen

DeepSeek Japanese

Gemini 2.0 Flash Thinking Experimental

CLaMP 3

ultravox-v0_4_1-llama-3_1-70b

OpenAI Agents SDK

腾讯混元大模型

MiracleVision奇想智能

热门网址