The Pile

11个月前发布 20 00

Pile是一个825 GiB的多样化、开源的语言建模数据集,由22个较小的高质量数据集组合而成,可用于训练大规模的语言模型,提升模型的泛化能力和跨领域知识。

收录时间:
2025-06-03
The PileThe Pile

Pile是一个825 GiB的多样化、开源的语言建模数据集,由22个较小的高质量数据集组合而成,可用于训练大规模的语言模型,提升模型的泛化能力和跨领域知识。

数据统计

相关导航

FineWeb2

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。
RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...