MiniMax-Text-01

1年前发布 74 0 0

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型，拥有4560亿总参数，其中每个token激活459亿参数。它采用了混合架构，结合了闪电注意力、softmax注意力和专家混合（MoE）技术，通过先进的并行策略和创新的计算-通信重叠方法，如线性注意力序列并行主义加（LASP+）、变长环形注意力、专家张量并行（ETP...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # 并行策略 # 文本生成 # 混合架构 # 语言模型 # 长上下文处理

MiniMax-Text-01

MiniMax-Text-01

MiniMax-Text-01是一个由MiniMaxAI开发的大型语言模型，拥有4560亿总参数，其中每个token激活459亿参数。它采用了混合架构，结合了闪电注意力、softmax注意力和专家混合（MoE）技术，通过先进的并行策略和创新的计算-通信重叠方法，如线性注意力序列并行主义加（LASP+）、变长环形注意力、专家张量并行（ETP）等，将训练上下文长度扩展到100万token，并能在推理时处理长达400万token的上下文。在多个学术基准测试中，MiniMax-Text-01展现出了顶级模型的性能。

数据统计

相关导航

OuteTTS-0.1-350M

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术，它不需要外部适配器或复杂架构，通过精心设计的提示和音频标记实现高质量的语音合成。该模型基于LLaMa架构，使用350M参数，展示了直接使用语言模型进行语音合成的潜力。它通过三个步骤处理音频：使用WavTokenizer进行音频标记化、CTC强制对齐创建精确的单词到音频标记映射、以及遵循特定格式的结构化提示创建。OuteTTS的主要优点包括纯语言建模方法、声音克隆能力、与llama.cpp和GGUF格式的兼容性。

Skywork-o1-Open-Llama-3.1-8B

Skywork-o1-Open-Llama-3.1-8B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该系列模型不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的战略进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

TaoPrompt.com

TaoPrompt是一款专业的AI提示生成工具，能够快速而准确地创建AI提示，帮助用户优化与ChatGPT、Claude、Gemini等AI模型的交互体验。它能够帮助用户节省时间，提高工作效率，适用于各种领域的需求。

Llama-3.1-Tulu-3-70B-DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分，专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能，如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型，主要使用英语，并遵循Llama 3.1社区许可协议。

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

Aya Expanse 32B

Aya Expanse 32B是由Cohere For AI开发的多语言大型语言模型，拥有32亿参数，专注于提供高性能的多语言支持。它结合了先进的数据仲裁、多语言偏好训练、安全调整和模型合并技术，以支持23种语言，包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。该模型的发布旨在使社区基础的研究工作更加易于获取，通过发布高性能的多语言模型权重，供全球研究人员使用。

s1-32B

s1是一个推理模型，专注于通过少量样本实现高效的文本生成能力。它通过预算强制技术在测试时进行扩展，能够匹配o1-preview的性能。该模型由Niklas Muennighoff等人开发，相关研究发表在arXiv上。模型使用Safetensors技术，具有328亿参数，支持文本生成任务。其主要优点是能够通过少量样本实现高质量的推理，适合需要高效文本生成的场景。

EXAONE-3.5-7.8B-Instruct-GGUF

EXAONE 3.5是LG AI Research开发的一系列双语（英语和韩语）指令调优的生成模型，参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理，在真实世界用例和长上下文理解方面展现出了最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。EXAONE 3.5模型包括：1) 2.4B模型，优化用于部署在小型或资源受限的设备上；2) 7.8B模型，与前代模型大小匹配但提供改进的性能；3) 32B模型，提供强大的性能。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...