EXAONE-3.5-2.4B-Instruct

1年前发布 64 0 0

EXAONE-3.5-2.4B-Instruct是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比的通用领域中保持竞争力。该模型特别适合需要处理长文本和...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # conversational # custom_code # exaone # lg-ai # Safetensors # Transformers # 文本生成 # 汉语 # 英语

EXAONE-3.5-2.4B-Instruct

EXAONE-3.5-2.4B-Instruct

EXAONE-3.5-2.4B-Instruct是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比的通用领域中保持竞争力。该模型特别适合需要处理长文本和多语言需求的场景，如自动翻译、文本摘要、对话系统等。

数据统计

相关导航

Skywork-o1-Open-Llama-3.1-8B

Skywork-o1-Open-Llama-3.1-8B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该系列模型不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的战略进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

EXAONE-3.5-7.8B-Instruct-AWQ

EXAONE 3.5是LG AI Research开发的一系列指令调优的双语（英语和韩语）生成模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比的一般领域中保持竞争力。EXAONE 3.5模型包括：1) 2.4B模型，优化用于小型或资源受限设备的部署；2) 7.8B模型，与前代模型大小相匹配，但提供改进的性能；3) 32B模型，提供强大的性能。

Llama-3.1-Tulu-3-70B-DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分，专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能，如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型，主要使用英语，并遵循Llama 3.1社区许可协议。

OLMo-2-1124-7B-SFT

OLMo-2-1124-7B-SFT是由艾伦人工智能研究所（AI2）发布的一个英文文本生成模型，它是OLMo 2 7B模型的监督微调版本，专门针对Tülu 3数据集进行了优化。Tülu 3数据集旨在提供多样化任务的顶尖性能，包括聊天、数学问题解答、GSM8K、IFEval等。该模型的主要优点包括强大的文本生成能力、多样性任务处理能力以及开源的代码和训练细节，使其成为研究和教育领域的有力工具。

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B 是由 DeepSeek 团队开发的高性能语言模型，基于 Qwen-2.5 系列进行蒸馏优化。该模型在多项基准测试中表现出色，尤其是在数学、代码和推理任务上。其主要优点包括高效的推理能力、强大的多语言支持以及开源特性，便于研究人员和开发者进行二次开发和应用。该模型适用于需要高性能文本生成的场景，如智能客服、内容创作和代码辅助等，具有广泛的应用前景。

Llama-3.1-Tulu-3-8B-SFT

Llama-3.1-Tulu-3-8B-SFT是Tülu3模型家族中的一员，这是一个领先的指令遵循模型家族，提供完全开源的数据、代码和配方，旨在为现代后训练技术提供全面的指南。该模型不仅在聊天任务上表现出色，还在MATH、GSM8K和IFEval等多样化任务上展现了卓越的性能。

Llama-Lynx-70b-4bit-Quantized

Llama-Lynx-70b-4bit-Quantized是由PatronusAI开发的一个大型文本生成模型，具有70亿参数，并且经过4位量化处理，以优化模型大小和推理速度。该模型基于Hugging Face的Transformers库构建，支持多种语言，特别是在对话生成和文本生成领域表现出色。它的重要性在于能够在保持较高性能的同时减少模型的存储和计算需求，使得在资源受限的环境中也能部署强大的AI模型。

WorldPM-72B

WorldPM-72B 是一个通过大规模训练获得的统一偏好建模模型，具有显著的通用性和较强的表现能力。该模型基于 15M 偏好数据，展示了在客观知识的偏好识别方面的巨大潜力。适合用于生成更高质量的文本内容，尤其在写作领域具有重要的应用价值。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...