【MiniMax-M2.5】面向真实世界复杂任务的多领域SOTA

【发布信息】2月12日,MiniMax发布推理模型M2.5,继M2、M2.1以来,保持快速更新迭代节奏。

【模型概况:提供领先性能与极致性价比】M2.5激活参数10B,在显存占用和推理能效比上优势明显,支持100、50TPS吞吐量。

【模型能力:面向真实世界生产力的SOTA表现】

1)Agent:M2.5在BrowseComp、Wide Search等搜索和工具调用相关评测中,达到领先水平。M2.5处理复杂任务时展现更高的决策成熟度,相较M2.1节省20%的轮次消耗,以更精简的路径逼近结果。

2)Coding:M2.5达到Claude Opus系列类似水平,在多语言相关任务Multi-SWE-Bench上达到第一。复杂系统从0-1设计、环境构建,从1-10系统开发,从10-90功能迭代,从90-100完备code review与系统测试,M2.5拥有可靠表现。

【应用场景:面向办公高阶场景产出可交付的产物】

公司与金融、法律、社会科学等领域从业者展开合作,由其提出需求、反馈问题、参与标准定义,将行业知识带入模型训练。M2.5在Word、PPT、Excel金融建模等办公场景中取得显著的能力提升。

【进展归因:大规模强化学习】

大规模的强化学习显著提升模型能力以及对脚手架、环境的泛化性。通过Agent RL框架、算法和Reward设计、工程优化的co-design,模型支持对任意Agent脚手架与环境的高效优化。公司在数十万个Agent脚手架与环境上大规模训练,验证模型能力随算力和任务数的scaling取得近线性提升。

【定价:继续维持高性价比】

M2.5(输出速度约50TPS)输入价格2.1元每百万token,输出价格8.4元每百万token; M2.5-lightning(输出速度约100TPS)输入价格2.1元每百万token,输出价格16.8元每百万token。Coding Plan已支持M2.5。

M2.5连续工作一小时只需要0.3美金的token成本,相当于1万美金可以让4个Agent连续工作一年,提供了极高性价比构建和运营Agent的可能性。

【投资建议】MiniMax-M2.5面向真实世界生产力,围绕编程、工具调用和搜索、办公等场景达到或刷新行业SOTA。整体定价保持海外模型1/10-1/20占比,有望加速Agent应用落地。参考此前外发报告,公司未来有望在To B的Agent、Coding领域进一步提升影响力,我们看好其在AI大模型行业的竞争力与投资价值。

$MINIMAX-WP(00100)$

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论1

  • 推荐
  • 最新
  • perfect126
    ·02-13 21:09
    评测没输过,干活没人用 哈哈
    回复
    举报