MiniMax发布全球首个混合架构开源模型M1,性能比肩DeepSeek-R1
港股研究社讯,6 月 17 日消息,上海AI 独角兽企业 MiniMax 发布自主研发的 MiniMax-M1 系列模型。M1 被定义为 “全球首个开源的大规模混合架构推理模型”。
技术报告显示,M1 模型在长文本处理领域实现重大飞跃,原生支持高达 100 万 Token 的上下文窗口,这一成绩与谷歌最新的 Gemini 2.5 Pro 持平,是 DeepSeek R1(12.8 万 Token)的近 8 倍,成为当下处理上下文最长的推理模型;其在推理输出方面同样表现卓越,支持业内最长的 8 万 Token 推理输出。在进行 8 万 Token 的深度推理时,M1 所需的算力仅为 DeepSeek R1 的约 30%;生成 10 万 token 时,推理算力只需 DeepSeek R1 的 25% ,推理效率数倍于竞争对手。
此外,MiniMax 研发的 CISPO 算法另辟蹊径,通过裁剪重要性采样权重,而非调整 Token 的更新方式,提升强化学习的效率与稳定性。得益于此,M1 模型整个强化学习阶段仅使用 512 块英伟达 H800 GPU,耗时三周,RL(强化训练)成本下降一个量级,仅为 53.5 万美元 。
值得一提的是,有消息指出MiniMax计划在香港进行首次公开募股(IPO),这将成为中国估值约30亿美元的AI企业的首秀,此次融资由阿里巴巴集团控股有限公司领投,腾讯控股有限公司等也参与了投资。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
点赞
举报
登录后可参与评论

暂无评论