mark
阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%
阿里巴巴开源Qwen3-Next-80B-A3B新架构模型,融合门控DeltaNet和门控注意力的混合架构,训练成本较Qwen3-32B暴降90%,推理效率提升10倍,在超长文本32K以上场景表现尤佳。性能上,指令微调版本媲美旗舰Qwen3-235B,思考模型超越谷歌Gemini-2.5-Flash,成为最强低能耗开源模型之一。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
点赞
举报
登录后可参与评论

暂无评论