Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

11个月前发布 30 00

Qwen2.5-Coder是Qwen大型语言模型的最新系列,专为代码生成、推理和修复而设计。该模型基于Qwen2.5,扩展了训练令牌至5.5万亿,包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者,其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5...

收录时间:
2025-05-29
Qwen2.5-Coder-3B-Instruct-GPTQ-Int4Qwen2.5-Coder-3B-Instruct-GPTQ-Int4

Qwen2.5-Coder是Qwen大型语言模型的最新系列,专为代码生成、推理和修复而设计。该模型基于Qwen2.5,扩展了训练令牌至5.5万亿,包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前开源代码LLM中的佼佼者,其编码能力与GPT-4o相匹配。此模型为GPTQ-量化的4位指令调优3B参数Qwen2.5-Coder模型,具有因果语言模型、预训练和后训练阶段、transformers架构等特点。

数据统计

相关导航

ModernBERT-base

ModernBERT-base

ModernBERT-base是一个现代化的双向编码器Transformer模型,预训练于2万亿英文和代码数据,原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进,使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务,如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码,因此可能在其他语言上的表现会有所降低。
DeepSeek提示库

DeepSeek提示库

DeepSeek提示库是一个强大的工具,通过提供多种提示词样例,帮助用户快速实现代码生成、改写、解释等功能。它还支持内容分类、结构化输出、文案创作等多种应用场景。该工具的主要优点是高效、灵活且易于使用,能够显著提升工作效率。DeepSeek提示库面向开发者、内容创作者和需要高效工具的用户,提供丰富的功能支持,帮助他们快速解决问题。目前,该产品可能需要付费使用,具体价格需根据官方平台信息确认。
Jamba 1.6

Jamba 1.6

Jamba 1.6 是 AI21 推出的最新语言模型,专为企业私有部署而设计。它在长文本处理方面表现出色,能够处理长达 256K 的上下文窗口,采用混合 SSM-Transformer 架构,可高效准确地处理长文本问答任务。该模型在质量上超越了 Mistral、Meta 和 Cohere 等同类模型,同时支持灵活的部署方式,包括在本地或 VPC 中私有部署,确保数据安全。它为企业提供了一种无需在数据安全和模型质量之间妥协的解决方案,适用于需要处理大量数据和长文本的场景,如研发、法律和金融分析等。目前,Jamba 1.6 已在多个企业中得到应用,如 Fnac 使用其进行数据分类,Educa Edtech 利用其构建个性化聊天机器人等。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...