分布式训练

共 3 篇网址

排序

发布更新浏览点赞

Meta Lingua

Meta Lingua 是一个轻量级、高效的大型语言模型（LLM）训练和推理库，专为研究而设计。它使用了易于修改的PyTorch组件，使得研究人员可以尝试新的架构、损失函数和数据集。该库旨在实现端到端的训练、推理和评估，并提供工具以更好地理解模型的速度和稳定性。尽管Meta Lingua目前仍在开发中，但已经提供了多个示例应用来展示如何使用这个代码库。

020

代码辅助 # LLM # PyTorch # 代码库

INTELLECT-1-Instruct

INTELLECT-1-Instruct是一个由Prime Intellect训练的10亿参数语言模型，从零开始在1万亿个英文文本和代码token上进行训练。该模型支持文本生成，并且具有分布式训练的能力，能够在不可靠的、全球分布的工作者上进行高性能训练。它使用了DiLoCo算法进行训练，并利用自定义的int8 all-reduce内核来减少通信负载，显著降低了通信开销。这个模型的背景信息显示，它是由30个独立的社区贡献者提供计算支持，并在3个大洲的14个并发节点上进行训练。

020

文案写作 # 分布式训练 # 大规模参数 # 文本生成

PyTorch2.0

实现快速、灵活的实验和高效的生产。

000

AIGC开发平台 AI开发框架 # C++前端 # 云支持 # 分布式训练