MiniMax-Text-01

11个月前发布 45 00

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型,拥有4560亿总参数,其中每个token激活459亿参数。它采用了混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE)技术,通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、变长环形注意力、专家张量并行(ETP...

收录时间:
2025-05-30
MiniMax-Text-01MiniMax-Text-01

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型,拥有4560亿总参数,其中每个token激活459亿参数。它采用了混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE)技术,通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、变长环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万token,并能在推理时处理长达400万token的上下文。在多个学术基准测试中,MiniMax-Text-01展现出了顶级模型的性能。

数据统计

相关导航

Proofreading AI

Proofreading AI

Proofreading AI是一个在线AI校对工具,它利用先进的语言模型GPT-4/4o来校对文档,提供精确的结果。这个工具不仅可以纠正语法错误、拼写错误,还能检测抄袭、去除抄袭内容、检测AI生成文本、人性化AI文本、生成引用和改写文本。Proofreading AI的主要优点包括无缝上传文档、即时下载校正后的文档、以及提供多种写作辅助工具。它的背景信息显示,Proofreading AI提供了比传统校对工具更多的功能,并且价格相对实惠。
Jamba 1.6

Jamba 1.6

Jamba 1.6 是 AI21 推出的最新语言模型,专为企业私有部署而设计。它在长文本处理方面表现出色,能够处理长达 256K 的上下文窗口,采用混合 SSM-Transformer 架构,可高效准确地处理长文本问答任务。该模型在质量上超越了 Mistral、Meta 和 Cohere 等同类模型,同时支持灵活的部署方式,包括在本地或 VPC 中私有部署,确保数据安全。它为企业提供了一种无需在数据安全和模型质量之间妥协的解决方案,适用于需要处理大量数据和长文本的场景,如研发、法律和金融分析等。目前,Jamba 1.6 已在多个企业中得到应用,如 Fnac 使用其进行数据分类,Educa Edtech 利用其构建个性化聊天机器人等。
EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF是由LG AI Research开发的一系列双语(英语和韩语)指令调优的生成型模型,参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理,并在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与近期发布的类似大小模型相比,在通用领域保持竞争力。该模型的重要性在于其优化了在小型或资源受限设备上的部署,同时提供了强大的性能。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...