Ferret-UI-Llama8b

11个月前发布 23 00

Ferret-UI是首个以用户界面为中心的多模态大型语言模型(MLLM),专为指代表达、定位和推理任务设计。它基于Gemma-2B和Llama-3-8B构建,能够执行复杂的用户界面任务。这个版本遵循了Apple的研究论文,是一个强大的工具,可以用于图像文本到文本的任务,并且在对话和文本生成方面具有优势。

收录时间:
2025-05-30
Ferret-UI-Llama8bFerret-UI-Llama8b

Ferret-UI是首个以用户界面为中心的多模态大型语言模型(MLLM),专为指代表达、定位和推理任务设计。它基于Gemma-2B和Llama-3-8B构建,能够执行复杂的用户界面任务。这个版本遵循了Apple的研究论文,是一个强大的工具,可以用于图像文本到文本的任务,并且在对话和文本生成方面具有优势。

数据统计

相关导航

EXAONE-3.5-2.4B-Instruct

EXAONE-3.5-2.4B-Instruct

EXAONE-3.5-2.4B-Instruct是LG AI Research开发的一系列双语(英语和韩语)指令调优的生成模型,参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理,并在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与最近发布的类似大小模型相比的通用领域中保持竞争力。该模型特别适合需要处理长文本和多语言需求的场景,如自动翻译、文本摘要、对话系统等。
EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF是由LG AI Research开发的一系列双语(英语和韩语)指令调优的生成型模型,参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理,并在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与近期发布的类似大小模型相比,在通用领域保持竞争力。该模型的重要性在于其优化了在小型或资源受限设备上的部署,同时提供了强大的性能。
MiniMax-Text-01

MiniMax-Text-01

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型,拥有4560亿总参数,其中每个token激活459亿参数。它采用了混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE)技术,通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、变长环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万token,并能在推理时处理长达400万token的上下文。在多个学术基准测试中,MiniMax-Text-01展现出了顶级模型的性能。
SmolVLM2

SmolVLM2

SmolVLM2 是一种轻量级的视频语言模型,旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点,适合在多种设备上运行,包括移动设备和桌面客户端。其主要优点是能够快速处理视频数据并生成高质量的文本输出,为视频内容创作、视频分析和教育等领域提供了强大的技术支持。该模型由 Hugging Face 团队开发,定位为高效、轻量化的视频处理工具,目前处于实验阶段,用户可以免费试用。
EXAONE-3.5-32B-Instruct-AWQ

EXAONE-3.5-32B-Instruct-AWQ

EXAONE-3.5-32B-Instruct-AWQ是LG AI Research开发的一系列指令调优的双语(英语和韩语)生成模型,参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理,在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与最近发布的类似大小模型相比,在通用领域保持竞争力。该模型通过AWQ量化技术,实现了4位组级别的权重量化,优化了模型的部署效率。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...