预训练

共 4 篇网址

排序

发布更新浏览点赞

智谱AI 开放平台

基于领先的千亿级多语言、多模态预训练模型，打造高效率、通用化的“模型即服务”AI开发新范式

020

AIGC开发平台 AI应用接口API # AI # API # API应用接口

中文互联网语料资源平台

中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站，旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。该平台汇聚了来自企业、高校和科研单位的协同优势，依托‘共建－共享’机制，形成了包括中文互联网基础语料2.0、人民网主流价值数据集、国家版本馆明清文献语料等多个高质量语料库。这些语料库经过严格的信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等处理步骤，确保了数据的合法性、真实性、准确性和客观性。平台的资源对于推动国家人工智能技术创新和产业发展具有重要意义，可帮助大模型更好地理解和生成中文内容，提升其知识能力与价值观对齐。

020

数据分析 # 人工智能 # 共建共享 # 数据安全

YuLan-Mini

YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型，具有2.4亿参数，尽管仅使用1.08T的预训练数据，但其性能可与使用更多数据训练的行业领先模型相媲美。该模型特别擅长数学和代码领域，为了促进可复现性，团队将开源相关的预训练资源。

020

代码辅助 # 开源 # 数学 # 编程

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集，覆盖超过1000种语言。该数据集经过精心设计，用于支持自然语言处理(NLP)模型的预训练和微调，特别是在多种语言上。它以其高质量、大规模和多样性而闻名，能够帮助模型学习跨语言的通用特征，提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色，甚至在某些情况下，比一些专门为单一语言设计的数据库表现更好。

020

数据分析 # Hugging Face # NLP # 多语言