Project CodeNet by IBM

11个月前发布 23 00

IBM的Project CodeNet是一个大型数据集,旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码,可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

收录时间:
2025-06-03
Project CodeNet by IBMProject CodeNet by IBM

IBM的Project CodeNet是一个大型数据集,旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码,可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

数据统计

相关导航

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。
FineWeb2

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...