阿里千问3发布,参数仅为DeepSeek-R1三分之一

新识研究所
04-29

阿里发布上半年最重要大模型Qwen 3,成为第一个开源混合推理模型

 

据南方都市报报道,4月29日,阿里巴巴发布了今年上半年最重要的AI大模型Qwen3。

 

同DeepSeek-R1相比,Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B,参数量缩减了三分之二,但性能表现却全面超越R1及OpenAI-o1等主流模型。

 

而在参数较少之外,Qwen3也是国内首款同时整合“快思考”和“慢思考”的混合推理模型,大幅降低了推理成本和算力消耗,在进行推理前可进行选择,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。

 

性能方面,千问3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在奥数水平的AIME25测评中,千问3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,千问3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,千问3以95.6分超越OpenAI-o1及DeepSeek-R1。

 

性能大幅提升的同时,千问3的部署成本还大幅下降,仅需4张H20即可部署千问3满血版。同时,其还还提供了丰富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斩获同尺寸开源模型SOTA(最佳性能)。

 

而在应用上,千问3原生支持MCP协议,大大降低编码复杂性,实现高效的手机及电脑Agent操作等任务,首次支持119种语言和方言,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用。

 

作者:杨启隆

编辑:丁力

 

 

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法