ModernBERT-base

1年前发布 48 0 0

ModernBERT-base是一个现代化的双向编码器Transformer模型，预训练于2万亿英文和代码数据，原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # BERT # Transformer模型 # 编码器模型 # 长文本处理 # 预训练模型

ModernBERT-base

ModernBERT-base

ModernBERT-base是一个现代化的双向编码器Transformer模型，预训练于2万亿英文和代码数据，原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进，使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务，如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码，因此可能在其他语言上的表现会有所降低。

数据统计

相关导航

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4是基于Qwen2.5的代码生成大型语言模型，具有32.5亿参数量，支持长文本处理，最大支持128K tokens。该模型在代码生成、代码推理和代码修复方面有显著提升，是当前开源代码语言模型中的佼佼者。它不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、推理和修复而设计。该模型基于Qwen2.5，扩展了训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者，其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5-Coder模型，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

EXAONE 3.5

EXAONE 3.5是LG AI Research发布的一系列人工智能模型，这些模型以其卓越的性能和成本效益而著称。它们在模型训练效率、去污染处理、长文本理解和指令遵循能力方面表现出色。EXAONE 3.5模型的开发遵循了LG的AI伦理原则，进行了AI伦理影响评估，以确保模型的负责任使用。这些模型的发布旨在推动AI研究和生态系统的发展，并为AI创新奠定基础。

olmo-mix-1124

allenai/olmo-mix-1124数据集是由Hugging Face提供的一个大规模多模态预训练数据集，主要用于训练和优化自然语言处理模型。该数据集包含了大量的文本信息，覆盖了多种语言，并且可以用于各种文本生成任务。它的重要性在于提供了一个丰富的资源，使得研究人员和开发者能够训练出更加精准和高效的语言模型，进而推动自然语言处理技术的发展。

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite 是 Google 推出的高效语言模型，专为长文本处理和复杂任务优化。它在推理、多模态、数学和事实性基准测试中表现出色，具备简化的价格策略，使得百万级上下文窗口更加经济实惠。Gemini 2.0 Flash-Lite 已在 Google AI Studio 和 Vertex AI 中全面开放，适合企业级生产使用。

Qwen2.5-Coder-32B

Qwen2.5-Coder-32B是基于Qwen2.5的代码生成模型，拥有32亿参数，是目前开源代码语言模型中参数最多的模型之一。它在代码生成、代码推理和代码修复方面有显著提升，能够处理长达128K tokens的长文本，适用于代码代理等实际应用场景。该模型在数学和通用能力上也保持了优势，支持长文本处理，是开发者在进行代码开发时的强大助手。

Qwen2.5-Coder-0.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，Qwen2.5-Coder-32B已成为当前最先进的开源代码语言模型，其编码能力与GPT-4o相匹配。该模型在实际应用中，如代码代理等，提供了更全面的基础，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...