数据集

共 20 篇网址

排序

发布更新浏览点赞

The Pile

Pile是一个825 GiB的多样化、开源的语言建模数据集，由22个较小的高质量数据集组合而成，可用于训练大规模的语言模型，提升模型的泛化能力和跨领域知识。

020

数据分析 # 数据集 # 语言建模

Project CodeNet by IBM

IBM的Project CodeNet是一个大型数据集，旨在教授AI编码。它包含了超过55种不同编程语言的约14百万个代码样本和约5亿行代码，可以用于AI编码教育、代码翻译和转换、代码分析和优化等应用场景。

020

数据分析 # AI编码 # 数据集

Figure Eight

Appen提供数据改进人工智能的解决方案，帮助客户推动创新，加速AI发展，并保持竞争优势。通过数据提供、数据清洗、数据标注和数据收集等功能，Appen为AI提供训练和学习所需的信息，提高AI的准确性、可信度和用户体验。

020

SQL助手编程AI # 人工智能 # 数据集

Sparsh

Sparsh是一系列通过自监督算法（如MAE、DINO和JEPA）训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，并在TacBench提出的下游任务中大幅度超越端到端模型，同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

020

数据分析 # PyTorch # 数据集 # 机器学习

Dataset Marketplace

数据集市场提供商业、房地产、电商等各种数据集，数据准确、完整，可供用户免费下载和付费购买。

010

AI商业与管理 # 商业数据 # 房地产数据 # 数据下载

AI绘画【百度飞浆】

百度飞浆二次元小姐姐版AI绘画——AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区，提供在线编程环境、免费GPU算力、海量开源算法和开放数据，帮助开发者快速创建和部署模型——可以直接fork（拷贝）别人大佬写好的项目部署到自己的云端，并且每个账号都有免费2核8G运行环境（但是免费的用起来很卡，不推荐）——或者你也可以直接在【应用体验】点击【开始生成】运行（不过体验版的运行时间很长，不推荐）——个人更加推荐用1.0点/小时的4核32G运行环境（亲测可用，强烈推荐！另外，完成新手任务可领100点算力！）

010

AI导航 AI绘画 # AI Studio # AI技术圈 # AI社区

Dolphin R1

Dolphin R1是一个由Cognitive Computations团队创建的数据集，旨在训练类似DeepSeek-R1 Distill模型的推理模型。该数据集包含30万条来自DeepSeek-R1的推理样本、30万条来自Gemini 2.0 flash thinking的推理样本以及20万条Dolphin聊天样本。这些数据集的组合为研究人员和开发者提供了丰富的训练资源，有助于提升模型的推理能力和对话能力。该数据集的创建得到了Dria、Chutes、Crusoe Cloud等多家公司的赞助支持，这些赞助商为数据集的开发提供了计算资源和资金支持。Dolphin R1数据集的发布，为自然语言处理领域的研究和开发提供了重要的基础，推动了相关技术的发展。

020

智能聊天机器人 # 对话系统 # 推理模型 # 数据集

Algo

Algo是一款出色的聊天机器人，为用户提供了一种轻松和有趣的方式来获取信息和见解。它可以使用数据集添加特定领域的知识和实时信息，自定义其个性和行为，并嵌入到Slack或网站中。

020

AI 聊天与助手 # 人工智能 # 数据集 # 更多关键词

Tülu 3

Tülu 3是一系列开源的先进语言模型，它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究，实现了复杂的训练过程。Tülu 3的成功根植于精心的数据管理、严格的实验、创新的方法论和改进的训练基础设施。通过公开分享数据、配方和发现，Tülu 3旨在赋予社区探索新的和创新的后训练方法的能力。

020

数据分析 # AI # 后训练 # 开源

RLVR-GSM-MATH-IF-Mixed-Constraints

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

020

数据分析 # AI # 强化学习 # 教育

CrowdFlower

Appen提供高质量数据，助力AI模型的开发和应用。我们的服务涵盖数据注释、数据收集、大型语言模型等多个方面，适用于语言模型训练、图像识别、搜索引擎优化、机器翻译等应用场景。

020

SQL助手编程AI # 人工智能 # 数据集

Level-Navi Agent-Search

Level-Navi Agent是一个开源的通用网络搜索代理框架，能够将复杂问题分解并逐步搜索互联网上的信息，直至回答用户问题。它通过提供Web24数据集，覆盖金融、游戏、体育、电影和事件等五大领域，为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习，为大语言模型在中文网络搜索代理领域的应用提供了重要参考。

020

数据分析 # 大语言模型 # 少样本学习 # 数据集

dolmino-mix-1124

DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集，用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据，旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。

020

文案写作 # 数据集 # 文本生成 # 机器学习

dolmino-mix-1124

DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集，用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据，旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。

020

文案写作 # 数据集 # 文本生成 # 机器学习

MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台，它通过指令调优技术，显著提升了多模态大型语言模型（MLLMs）在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集，覆盖了多样化的、推理密集型的任务，并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能，展现了其在教育和研究领域的重要性。

020

数据分析 # 多模态 # 指令调优 # 推理

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集，覆盖超过1000种语言。该数据集经过精心设计，用于支持自然语言处理(NLP)模型的预训练和微调，特别是在多种语言上。它以其高质量、大规模和多样性而闻名，能够帮助模型学习跨语言的通用特征，提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色，甚至在某些情况下，比一些专门为单一语言设计的数据库表现更好。

020

数据分析 # Hugging Face # NLP # 多语言

OLMo 2 1124 13B Preference Mixture

OLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集，包含377.7k个生成对，用于训练和优化语言模型，特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境，有助于开发更加精准和个性化的语言处理技术。

020

数据分析 # 偏好学习 # 多语言 # 指令遵循

和鲸社区

和鲸社区是数据科学实践社区，帮助数据人才在交流中享受学习，在实践中快速成长。众多数据科学从业者及爱好者在这里分享开源代码、复现实战案例、参与数据竞赛、记录成长历程

060

综合其他 # itotii导航 # ModelWhale # Notebook

飞桨AI Studio

打赏赞微海报分享

070

AI学习网站 AI工具导航 # AI Studio # AI技术圈 # AI社区

镝数聚

短视频行业发展趋势、人才技能要求、内容价值洞察等相关分析解读

013K0

数据分析 # 体育数据 # 大数据 # 娱乐数据