热门

The Pile

11个月前发布 20 00

Pile是一个825 GiB的多样化、开源的语言建模数据集，由22个较小的高质量数据集组合而成，可用于训练大规模的语言模型，提升模型的泛化能力和跨领域知识。

收录时间：

2025-06-03

打开网站手机查看

数据分析 # 数据集 # 语言建模

The Pile

The Pile

Pile是一个825 GiB的多样化、开源的语言建模数据集，由22个较小的高质量数据集组合而成，可用于训练大规模的语言模型，提升模型的泛化能力和跨领域知识。

数据统计

相关导航

OLMo 2 1124 13B Preference Mixture

OLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集，包含377.7k个生成对，用于训练和优化语言模型，特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境，有助于开发更加精准和个性化的语言处理技术。

Tülu 3

Tülu 3是一系列开源的先进语言模型，它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究，实现了复杂的训练过程。Tülu 3的成功根植于精心的数据管理、严格的实验、创新的方法论和改进的训练基础设施。通过公开分享数据、配方和发现，Tülu 3旨在赋予社区探索新的和创新的后训练方法的能力。

Level-Navi Agent-Search

Level-Navi Agent是一个开源的通用网络搜索代理框架，能够将复杂问题分解并逐步搜索互联网上的信息，直至回答用户问题。它通过提供Web24数据集，覆盖金融、游戏、体育、电影和事件等五大领域，为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习，为大语言模型在中文网络搜索代理领域的应用提供了重要参考。

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集，覆盖超过1000种语言。该数据集经过精心设计，用于支持自然语言处理(NLP)模型的预训练和微调，特别是在多种语言上。它以其高质量、大规模和多样性而闻名，能够帮助模型学习跨语言的通用特征，提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色，甚至在某些情况下，比一些专门为单一语言设计的数据库表现更好。

Project CodeNet by IBM

IBM的Project CodeNet是一个大型数据集，旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码，可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

镝数聚

短视频行业发展趋势、人才技能要求、内容价值洞察等相关分析解读

Sparsh

Sparsh是一系列通过自监督算法（如MAE、DINO和JEPA）训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，并在TacBench提出的下游任务中大幅度超越端到端模型，同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

暂无评论

您必须登录才能参与评论！

none

暂无评论...