AMD-Llama-135m

11个月前发布 24 00

AMD-Llama-135m是一个基于LLaMA2模型架构训练的语言模型,能够在AMD MI250 GPU上流畅加载使用。该模型支持生成文本和代码,适用于多种自然语言处理任务。

收录时间:
2025-06-02
AMD-Llama-135mAMD-Llama-135m

AMD-Llama-135m是一个基于LLaMA2模型架构训练的语言模型,能够在AMD MI250 GPU上流畅加载使用。该模型支持生成文本和代码,适用于多种自然语言处理任务。

数据统计

相关导航

Qwen2.5-Coder-0.5B-Instruct

Qwen2.5-Coder-0.5B-Instruct

Qwen2.5-Coder是Qwen大型语言模型的最新系列,专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5,通过扩展训练令牌到5.5万亿,包括源代码、文本代码基础、合成数据等,Qwen2.5-Coder-32B已成为当前最先进的开源代码LLM,其编码能力与GPT-4o相匹配。该模型不仅增强了编码能力,还保持了在数学和通用能力方面的优势,为实际应用如代码代理提供了更全面的基础。
Qwen2.5-Coder-32B-Instruct

Qwen2.5-Coder-32B-Instruct

Qwen2.5-Coder是一系列专为代码生成设计的Qwen大型语言模型,包含0.5、1.5、3、7、14、32亿参数的六种主流模型尺寸,以满足不同开发者的需求。该模型在代码生成、代码推理和代码修复方面有显著提升,基于强大的Qwen2.5,训练令牌扩展到5.5万亿,包括源代码、文本代码基础、合成数据等。Qwen2.5-Coder-32B是目前最先进的开源代码生成大型语言模型,其编码能力与GPT-4o相匹配。它不仅增强了编码能力,还保持了在数学和通用能力方面的优势,并支持长达128K令牌的长上下文。
NovaSky

NovaSky

NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。它通过创新的测试时扩展技术(如 S*)、强化学习蒸馏推理等技术,显著提升了非推理模型的性能,使其在代码生成领域表现出色。该平台致力于为开发者提供高效、低成本的模型训练和优化解决方案,帮助他们在编程任务中实现更高的效率和准确性。NovaSky 的技术背景源于 Sky Computing Lab @ Berkeley,具有强大的学术支持和前沿的技术研究基础。目前,NovaSky 提供多种模型优化方法,包括但不限于推理成本优化和模型蒸馏技术,满足不同开发者的需求。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...