MiniMax发布全球首个混合架构开源模型M1，性能比肩DeepSeek-R1_老虎社区_美港股上老虎 - 老虎社区

点赞
评论
收藏

MiniMax发布全球首个混合架构开源模型M1，性能比肩DeepSeek-R1

港股研究社
06-19

港股研究社讯，6 月 17 日消息，上海AI 独角兽企业 MiniMax 发布自主研发的 MiniMax-M1 系列模型。M1 被定义为 “全球首个开源的大规模混合架构推理模型”。

技术报告显示，M1 模型在长文本处理领域实现重大飞跃，原生支持高达 100 万 Token 的上下文窗口，这一成绩与谷歌最新的 Gemini 2.5 Pro 持平，是 DeepSeek R1（12.8 万 Token）的近 8 倍，成为当下处理上下文最长的推理模型；其在推理输出方面同样表现卓越，支持业内最长的 8 万 Token 推理输出。在进行 8 万 Token 的深度推理时，M1 所需的算力仅为 DeepSeek R1 的约 30%；生成 10 万 token 时，推理算力只需 DeepSeek R1 的 25% ，推理效率数倍于竞争对手。

此外，MiniMax 研发的 CISPO 算法另辟蹊径，通过裁剪重要性采样权重，而非调整 Token 的更新方式，提升强化学习的效率与稳定性。得益于此，M1 模型整个强化学习阶段仅使用 512 块英伟达 H800 GPU，耗时三周，RL（强化训练）成本下降一个量级，仅为 53.5 万美元。

值得一提的是，有消息指出MiniMax计划在香港进行首次公开募股（IPO），这将成为中国估值约30亿美元的AI企业的首秀，此次融资由阿里巴巴集团控股有限公司领投，腾讯控股有限公司等也参与了投资。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

点赞

举报

评论

推荐
最新

empty

暂无评论

热议股票

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":447552354783464,"tweetId":"447552354783464","gmtCreate":1750304210227,"gmtModify":1750304216255,"author":{"id":3516422794850265,"idStr":"3516422794850265","authorId":3516422794850265,"authorIdStr":"3516422794850265","name":"港股研究社","avatar":"https://static.tigerbbs.com/6f93253ece299c58b5ce6c809885d9ed","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":4547,"starInvestorFlag":false},"themes":[],"images":[{"img":"https://static.tigerbbs.com/70121d98b8efa1209311ba2f922d3e48","width":"1024","height":"358"}],"coverImages":[{"img":"https://static.tigerbbs.com/70121d98b8efa1209311ba2f922d3e48","width":"1024","height":"358"}],"title":"MiniMax发布全球首个混合架构开源模型M1，性能比肩DeepSeek-R1","html":"<html><head></head><body><p>港股研究社讯，6 月 17 日消息，上海AI 独角兽企业 MiniMax 发布自主研发的 MiniMax-M1 系列模型。M1 被定义为 “全球首个开源的大规模混合架构推理模型”。</p>\n<p>技术报告显示，M1 模型在长文本处理领域实现重大飞跃，原生支持高达 100 万 Token 的上下文窗口，这一成绩与谷歌最新的 Gemini 2.5 Pro 持平，是 DeepSeek R1（12.8 万 Token）的近 8 倍，成为当下处理上下文最长的推理模型；其在推理输出方面同样表现卓越，支持业内最长的 8 万 Token 推理输出。在进行 8 万 Token 的深度推理时，M1 所需的算力仅为 DeepSeek R1 的约 30%；生成 10 万 token 时，推理算力只需 DeepSeek R1 的 25% ，推理效率数倍于竞争对手。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/70121d98b8efa1209311ba2f922d3e48\" tg-width=\"1024\" tg-height=\"358\"></p>\n<p>此外，MiniMax 研发的 CISPO 算法另辟蹊径，通过裁剪重要性采样权重，而非调整 Token 的更新方式，提升强化学习的效率与稳定性。得益于此，M1 模型整个强化学习阶段仅使用 512 块英伟达 H800 GPU，耗时三周，RL（强化训练）成本下降一个量级，仅为 53.5 万美元 。</p>\n<p>值得一提的是，有消息指出MiniMax计划在香港进行首次公开募股（IPO），这将成为中国估值约30亿美元的AI企业的首秀，此次融资由阿里巴巴集团控股有限公司领投，腾讯控股有限公司等也参与了投资。</p>\n<p></p></body></html>","htmlText":"<html><head></head><body><p>港股研究社讯，6 月 17 日消息，上海AI 独角兽企业 MiniMax 发布自主研发的 MiniMax-M1 系列模型。M1 被定义为 “全球首个开源的大规模混合架构推理模型”。</p>\n<p>技术报告显示，M1 模型在长文本处理领域实现重大飞跃，原生支持高达 100 万 Token 的上下文窗口，这一成绩与谷歌最新的 Gemini 2.5 Pro 持平，是 DeepSeek R1（12.8 万 Token）的近 8 倍，成为当下处理上下文最长的推理模型；其在推理输出方面同样表现卓越，支持业内最长的 8 万 Token 推理输出。在进行 8 万 Token 的深度推理时，M1 所需的算力仅为 DeepSeek R1 的约 30%；生成 10 万 token 时，推理算力只需 DeepSeek R1 的 25% ，推理效率数倍于竞争对手。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/70121d98b8efa1209311ba2f922d3e48\" tg-width=\"1024\" tg-height=\"358\"></p>\n<p>此外，MiniMax 研发的 CISPO 算法另辟蹊径，通过裁剪重要性采样权重，而非调整 Token 的更新方式，提升强化学习的效率与稳定性。得益于此，M1 模型整个强化学习阶段仅使用 512 块英伟达 H800 GPU，耗时三周，RL（强化训练）成本下降一个量级，仅为 53.5 万美元 。</p>\n<p>值得一提的是，有消息指出MiniMax计划在香港进行首次公开募股（IPO），这将成为中国估值约30亿美元的AI企业的首秀，此次融资由阿里巴巴集团控股有限公司领投，腾讯控股有限公司等也参与了投资。</p>\n<p></p></body></html>","text":"港股研究社讯，6 月 17 日消息，上海AI 独角兽企业 MiniMax 发布自主研发的 MiniMax-M1 系列模型。M1 被定义为 “全球首个开源的大规模混合架构推理模型”。 技术报告显示，M1 模型在长文本处理领域实现重大飞跃，原生支持高达 100 万 Token 的上下文窗口，这一成绩与谷歌最新的 Gemini 2.5 Pro 持平，是 DeepSeek R1（12.8 万 Token）的近 8 倍，成为当下处理上下文最长的推理模型；其在推理输出方面同样表现卓越，支持业内最长的 8 万 Token 推理输出。在进行 8 万 Token 的深度推理时，M1 所需的算力仅为 DeepSeek R1 的约 30%；生成 10 万 token 时，推理算力只需 DeepSeek R1 的 25% ，推理效率数倍于竞争对手。 此外，MiniMax 研发的 CISPO 算法另辟蹊径，通过裁剪重要性采样权重，而非调整 Token 的更新方式，提升强化学习的效率与稳定性。得益于此，M1 模型整个强化学习阶段仅使用 512 块英伟达 H800 GPU，耗时三周，RL（强化训练）成本下降一个量级，仅为 53.5 万美元 。 值得一提的是，有消息指出MiniMax计划在香港进行首次公开募股（IPO），这将成为中国估值约30亿美元的AI企业的首秀，此次融资由阿里巴巴集团控股有限公司领投，腾讯控股有限公司等也参与了投资。","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/447552354783464","repostId":0,"isVote":1,"tweetType":1,"viewCount":188,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":896,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}