OLMo 2 1124 13B Preference MixtureOLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集,包含377.7k个生成对,用于训练和优化语言模型,特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境,有助于开发更加精准和个性化的语言处理技术。
Level-Navi Agent-SearchLevel-Navi Agent是一个开源的通用网络搜索代理框架,能够将复杂问题分解并逐步搜索互联网上的信息,直至回答用户问题。它通过提供Web24数据集,覆盖金融、游戏、体育、电影和事件等五大领域,为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习,为大语言模型在中文网络搜索代理领域的应用提供了重要参考。
FineWeb2FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集,覆盖超过1000种语言。该数据集经过精心设计,用于支持自然语言处理(NLP)模型的预训练和微调,特别是在多种语言上。它以其高质量、大规模和多样性而闻名,能够帮助模型学习跨语言的通用特征,提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色,甚至在某些情况下,比一些专门为单一语言设计的数据库表现更好。