别搞笑了!

冲上热搜!美团大模型,靠“快”火了

LongCat-Flash 开源后登上热搜。大模型怎么省算力?用来训练该模型的数据量超过 20 万亿 token,但训练时间却只用了不到 30 天。这个价格相比市面上同等规模的模型来说,可以算是非常划算了。从技术上来说,LongCat-Flash 主要瞄准语言模型的两个目标:计算效率与智能体能力,并融合了架构创新与多阶段训练方法,从而实现可扩展且智能的模型体系。一般而言,大规模 MoE 模型的效率在很大程度上受到通信开销的限制。
冲上热搜!美团大模型,靠“快”火了

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论