热门

GLM-Zero-Preview

11个月前发布 28 00

GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型，专注于增强AI推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题。与基座模型相比，在不显著降低通用任务能力的情况下，专家任务能力大幅提升。在AIME 2024、MATH500和LiveCodeBench评测中，效果与OpenAI o1-preview相当...

收录时间：

2025-05-30

打开网站手机查看

代码辅助 # AI推理 # 强化学习 # 教育工具。# 数理逻辑 # 编程辅助

GLM-Zero-Preview

GLM-Zero-Preview

GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型，专注于增强AI推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题。与基座模型相比，在不显著降低通用任务能力的情况下，专家任务能力大幅提升。在AIME 2024、MATH500和LiveCodeBench评测中，效果与OpenAI o1-preview相当。产品背景信息显示，智谱华章科技有限公司致力于通过强化学习技术，提升模型的深度推理能力，未来将推出正式版GLM-Zero，扩展深度思考的能力到更多技术领域。

数据统计

相关导航

Qwen2.5-Coder-1.5B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专为代码生成、代码推理和代码修复而设计。基于强大的Qwen2.5，通过增加训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。此模型是1.5B参数的指令调优版本，采用GGUF格式，具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

Qwen2.5-Coder-1.5B

Qwen2.5-Coder-1.5B是Qwen2.5-Coder系列中的一款大型语言模型，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，该模型通过扩展训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，成为当前开源代码LLM中的佼佼者，编码能力媲美GPT-4o。此外，Qwen2.5-Coder-1.5B还强化了数学和通用能力，为实际应用如代码代理提供了更全面的基础。

SWE-RL

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

Qwen2.5-Coder-3B-Instruct

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，该系列模型通过增加训练令牌至5.5万亿，包括源代码、文本代码接地、合成数据等，显著提升了代码生成、推理和修复能力。Qwen2.5-Coder-3B是该系列中的一个模型，拥有3.09B参数，36层，16个注意力头（Q）和2个注意力头（KV），全32,768令牌上下文长度。该模型是目前开源代码LLM中的佼佼者，编码能力与GPT-4o相匹配，为开发者提供了一个强大的代码辅助工具。

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

DeepSeek Japanese

DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型，专注于开源模型和创新训练方法。其 R1 系列模型在逻辑推理和问题解决方面表现出色，采用强化学习和混合专家框架优化性能，以低成本实现高效训练。DeepSeek 的开源策略推动了社区创新，同时引发了关于 AI 竞争和开源模型影响力的行业讨论。其免费且无需注册的使用方式进一步降低了用户门槛，适合广泛的应用场景。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

Qwen2.5-Coder-3B-Instruct-GGUF

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，训练令牌扩展到5.5万亿，包括源代码、文本代码接地、合成数据等。Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。该模型在实际应用中提供了更全面的基础，如代码代理，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

暂无评论

您必须登录才能参与评论！

none

暂无评论...