阿布_3645
08-31 13:11
[开心]
[开心]
[开心]
[开心]
[开心]
[开心]
[开心]
临时抱佛脚
美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力节省”
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
1
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":473437613617664,"tweetId":"473437613617664","gmtCreate":1756617071789,"gmtModify":1756617073637,"author":{"id":4135678816599370,"idStr":"4135678816599370","authorId":4135678816599370,"authorIdStr":"4135678816599370","name":"阿布_3645","avatar":"https://static.tigerbbs.com/d162ec1ff5aba036bc7b40d5a6366330","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":0,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p><span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> 临时抱佛脚<br></p></body></html>","htmlText":"<html><head></head><body><p><span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> <span>[开心] </span> 临时抱佛脚<br></p></body></html>","text":"[开心] [开心] [开心] [开心] [开心] [开心] [开心] 临时抱佛脚","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/473437613617664","repostId":2563483300,"repostType":2,"repost":{"id":"2563483300","kind":"news","pubTimestamp":1756609800,"share":"https://www.laohu8.com/m/news/2563483300?lang=&edition=full","pubTime":"2025-08-31 11:10","market":"us","language":"zh","title":"美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力节省”","url":"https://stock-news.laohu8.com/highlight/detail?id=2563483300","media":"华尔街见闻","summary":"LongCat-Flash推理速度超过100词元/秒,每处理一百万输出词元的成本仅为0.7美元。该模型不仅在多个方面与DeepSeek V3.1、Qwen3等顶尖模型旗鼓相当,甚至在某些特定能力上实现了超越。比如,在执行“智能代理”(Agent)任务方面的能力测试中,LongCat-Flash的得分在所有参与对比的模型中排名第一。","content":"<html><head></head><body><p><strong>刚刚,<a href=\"https://laohu8.com/S/MPNGY\">美团</a>开源了他们的龙猫大模型LongCat-Flash。</strong></p><p><strong>一个拥有5600亿参数的混合专家(MoE)模型。</strong></p><p>它不仅在性能上追求卓越,更通过一系列架构和训练上的创新,实现了惊人的计算效率和高级的Agent能力。</p><p>LongCat-Flash在保证强大能力的同时,将计算资源用在“刀刃”上。</p><p>它并非在处理每个任务时都激活全部5600亿参数,而是通过精巧的设计,实现了动态的资源分配。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7343fa125ce6f2ab3976e3e65f4353b0\" tg-width=\"1024\" tg-height=\"526\"/></p><p>LongCat-Flash最具创新性的设计之一是 <strong>“零计算”专家机制 (Zero-computation Experts) </strong></p><p>模型可以智能地判断输入内容中不同部分的重要性,并将计算量较小的任务(例如常见的词语、标点符号)分配给一个特殊的“零计算”专家。</p><p><strong>该专家不进行实际的复杂运算,直接返回输入,从而极大地节省了算力。</strong></p><p>得益于此,模型在处理每个词元(token)时,<strong>仅需动态激活186亿至313亿的参数(平均约270亿),实现了性能与效率的完美平衡。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/dd50319902456a18b4c690c19b635e59\" tg-width=\"1024\" tg-height=\"511\"/></p><p>在大规模MoE模型中,不同“专家”模块之间的通信延迟往往是性能瓶颈。</p><p>为此龙猫大模型引入了快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE) </p><p>ScMoE架构通过引入一个快捷连接,<strong>有效地扩大了计算和通信的重叠窗口,显著提升了训练和推理的吞吐量,让模型的响应速度更快。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/27eeefbdbce79c771472f382e3fde163\" tg-width=\"1024\" tg-height=\"510\"/></p><p>为了让模型不仅能“聊天”,更能成为能解决复杂任务的“智能代理”,LongCat-Flash经历了一个<strong>精心设计的 为Agent而生的多阶段训练流程。</strong></p><p>该流程包括大规模预训练、针对性地提升推理和代码能力的中期训练,以及专注于对话和工具使用能力的后训练。</p><p><strong>这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。</strong></p><p>一个有趣且值得关注的细节是,在官方的技术报告中,<strong>强调了LongCat-Flash是在一个包含数万个加速器(tens of thousands of accelerators)的大规模集群上完成训练的。</strong></p><p>这个用词非常严谨。</p><p>在当前AI领域,虽然大家通常会立刻<a href=\"https://laohu8.com/S/00992\">联想</a>到NVIDIA的GPU,<strong>但“加速器”是一个更广泛的概念,它可以包括Google的TPU、华为的升腾(Ascend)或其他专为AI计算设计的芯片。</strong></p><p>官方选择使用这个词汇,而没有明确指出是“GPU”,这为硬件的具体来源留下了一定的想象空间,也体现了其在技术陈述上的精确性。</p><p>无论具体是哪种硬件,在如此庞大的集群上,<strong>于短短30天内完成超过20万亿词元的训练量,都足以证明其背后基础设施的强大与工程优化的卓越。</strong></p><p>LongCat-Flash的工程优化成果最终体现在了用户可感知的性能和成本上:</p><p><strong>极高的推理速度 :推理速度超过100词元/秒(TPS)。</strong></p><p><strong>极低的运营成本 :每处理一百万输出词元的成本仅为0.7美元。</strong></p><p><strong>强大的综合能力 :支持128k的长文本上下文,并在代码、推理和工具调用等多个方面展现出与业界领先模型相媲美的竞争力。</strong></p><p>为了更直观地展示 LongCat-Flash 的实力,我们来看一下它与业界其他顶尖模型的详细评估对比。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c0f8eb33aa579a78eaef874451131517\" tg-width=\"1024\" tg-height=\"1242\"/></p><p><a href=\"https://laohu8.com/S/03690\">美团</a>的 LongCat-Flash 模型在各项基准测试中展现出了非常强劲且极具竞争力的性能。</p><p><strong>它不仅在多个方面与业界顶尖的开源模型(如 DeepSeek V3.1, Qwen3)旗鼓相当,甚至在某些特定能力上实现了超越。</strong></p><p>通用领域能力 (General Domains) 在衡量模型通用知识和推理能力的测试中,LongCat-Flash 表现稳定且出色。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/1a022b98b979bd727287472423c4f855\" tg-width=\"1024\" tg-height=\"703\"/></p><p><strong>MMLU / MMLU-Pro :</strong></p><p>这是衡量模型综合知识水平的核心指标。</p><p>LongCat-Flash 的得分(89.71 / 82.68)与 DeepSeek V3.1、Qwen3 MoE 和 Kimi-K2 处于同一梯队,证明了其扎实的基础知识和推理能力。</p><p><strong>ArenaHard-V2 :</strong></p><p>这个基准更侧重于模型作为聊天助手的“体感”和处理复杂指令的能力。LongCat-Flash 在此项得分 86.50 ,超过了 DeepSeek V3.1,与 Qwen3 MoE(88.20)非常接近,这说明它的对话和推理能力非常优秀。</p><p><strong>中文能力 (CEval / CMMLU) :</strong></p><p>作为中文领域的权威测试,LongCat-Flash 在 CEval 上表现优异(90.44),在 CMMLU 上也保持了不错的水平,证明其对中文语言有很好的支持。</p><p>指令遵循(Instruction Following)这是 LongCat-Flash 最突出的亮点。</p><p>技术报告中提到,模型为“Agent”能力进行了专门的多阶段训练,而评估结果也印证了这一点。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/1a7525a6a0d55ab83dd9cb081a820165\" tg-width=\"1024\" tg-height=\"235\"/></p><p><strong>IFEval & COLLIE :</strong></p><p>这两个基准专门评估模型理解并执行复杂、多步骤指令的能力。</p><p>在 IFEval 上,LongCat-Flash 的得分(89.65)名列前茅,超越了 DeepSeek V3.1,与 Kimi-K2 和 Qwen3 MoE 并驾齐驱。</p><p><strong>在 COLLIE 测试中,LongCat-Flash 取得了 57.10 的高分, 在所有参与对比的模型中排名第一 。</strong></p><p>这强有力地证明了它在执行需要调用工具、与环境交互的复杂“智能代理”(Agent)任务方面的卓越能力。 </p><p>目前,<strong>LongCat-Flash模型已经发布在Hugging Face和Githiub社区,并遵循MIT许可协议。</strong></p><p>全球学术界和产业界的研究者、开发者都可以自由地使用和探索这个强大的模型,共同推动AI技术的发展。</p></body></html>","source":"wallstreetcn_hot_news","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力节省”</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力节省”\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-08-31 11:10 北京时间 <a href=https://wallstreetcn.com/articles/3754610><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>刚刚,美团开源了他们的龙猫大模型LongCat-Flash。一个拥有5600亿参数的混合专家(MoE)模型。它不仅在性能上追求卓越,更通过一系列架构和训练上的创新,实现了惊人的计算效率和高级的Agent能力。LongCat-Flash在保证强大能力的同时,将计算资源用在“刀刃”上。它并非在处理每个任务时都激活全部5600亿参数,而是通过精巧的设计,实现了动态的资源分配。LongCat-Flash...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3754610\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/e1238455e09ac8d1135014cb37eb0f4d","relate_stocks":{},"source_url":"https://wallstreetcn.com/articles/3754610","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2563483300","content_text":"刚刚,美团开源了他们的龙猫大模型LongCat-Flash。一个拥有5600亿参数的混合专家(MoE)模型。它不仅在性能上追求卓越,更通过一系列架构和训练上的创新,实现了惊人的计算效率和高级的Agent能力。LongCat-Flash在保证强大能力的同时,将计算资源用在“刀刃”上。它并非在处理每个任务时都激活全部5600亿参数,而是通过精巧的设计,实现了动态的资源分配。LongCat-Flash最具创新性的设计之一是 “零计算”专家机制 (Zero-computation Experts) 模型可以智能地判断输入内容中不同部分的重要性,并将计算量较小的任务(例如常见的词语、标点符号)分配给一个特殊的“零计算”专家。该专家不进行实际的复杂运算,直接返回输入,从而极大地节省了算力。得益于此,模型在处理每个词元(token)时,仅需动态激活186亿至313亿的参数(平均约270亿),实现了性能与效率的完美平衡。在大规模MoE模型中,不同“专家”模块之间的通信延迟往往是性能瓶颈。为此龙猫大模型引入了快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE) ScMoE架构通过引入一个快捷连接,有效地扩大了计算和通信的重叠窗口,显著提升了训练和推理的吞吐量,让模型的响应速度更快。为了让模型不仅能“聊天”,更能成为能解决复杂任务的“智能代理”,LongCat-Flash经历了一个精心设计的 为Agent而生的多阶段训练流程。该流程包括大规模预训练、针对性地提升推理和代码能力的中期训练,以及专注于对话和工具使用能力的后训练。这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。一个有趣且值得关注的细节是,在官方的技术报告中,强调了LongCat-Flash是在一个包含数万个加速器(tens of thousands of accelerators)的大规模集群上完成训练的。这个用词非常严谨。在当前AI领域,虽然大家通常会立刻联想到NVIDIA的GPU,但“加速器”是一个更广泛的概念,它可以包括Google的TPU、华为的升腾(Ascend)或其他专为AI计算设计的芯片。官方选择使用这个词汇,而没有明确指出是“GPU”,这为硬件的具体来源留下了一定的想象空间,也体现了其在技术陈述上的精确性。无论具体是哪种硬件,在如此庞大的集群上,于短短30天内完成超过20万亿词元的训练量,都足以证明其背后基础设施的强大与工程优化的卓越。LongCat-Flash的工程优化成果最终体现在了用户可感知的性能和成本上:极高的推理速度 :推理速度超过100词元/秒(TPS)。极低的运营成本 :每处理一百万输出词元的成本仅为0.7美元。强大的综合能力 :支持128k的长文本上下文,并在代码、推理和工具调用等多个方面展现出与业界领先模型相媲美的竞争力。为了更直观地展示 LongCat-Flash 的实力,我们来看一下它与业界其他顶尖模型的详细评估对比。美团的 LongCat-Flash 模型在各项基准测试中展现出了非常强劲且极具竞争力的性能。它不仅在多个方面与业界顶尖的开源模型(如 DeepSeek V3.1, Qwen3)旗鼓相当,甚至在某些特定能力上实现了超越。通用领域能力 (General Domains) 在衡量模型通用知识和推理能力的测试中,LongCat-Flash 表现稳定且出色。MMLU / MMLU-Pro :这是衡量模型综合知识水平的核心指标。LongCat-Flash 的得分(89.71 / 82.68)与 DeepSeek V3.1、Qwen3 MoE 和 Kimi-K2 处于同一梯队,证明了其扎实的基础知识和推理能力。ArenaHard-V2 :这个基准更侧重于模型作为聊天助手的“体感”和处理复杂指令的能力。LongCat-Flash 在此项得分 86.50 ,超过了 DeepSeek V3.1,与 Qwen3 MoE(88.20)非常接近,这说明它的对话和推理能力非常优秀。中文能力 (CEval / CMMLU) :作为中文领域的权威测试,LongCat-Flash 在 CEval 上表现优异(90.44),在 CMMLU 上也保持了不错的水平,证明其对中文语言有很好的支持。指令遵循(Instruction Following)这是 LongCat-Flash 最突出的亮点。技术报告中提到,模型为“Agent”能力进行了专门的多阶段训练,而评估结果也印证了这一点。IFEval & COLLIE :这两个基准专门评估模型理解并执行复杂、多步骤指令的能力。在 IFEval 上,LongCat-Flash 的得分(89.65)名列前茅,超越了 DeepSeek V3.1,与 Kimi-K2 和 Qwen3 MoE 并驾齐驱。在 COLLIE 测试中,LongCat-Flash 取得了 57.10 的高分, 在所有参与对比的模型中排名第一 。这强有力地证明了它在执行需要调用工具、与环境交互的复杂“智能代理”(Agent)任务方面的卓越能力。 目前,LongCat-Flash模型已经发布在Hugging Face和Githiub社区,并遵循MIT许可协议。全球学术界和产业界的研究者、开发者都可以自由地使用和探索这个强大的模型,共同推动AI技术的发展。","news_type":1,"symbols_score_info":{"03690":1,"MPNGY":1}},"isVote":1,"tweetType":1,"viewCount":1,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":52,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/473437613617664"}
精彩评论