GLM-5架构细节浮出水面:DeepSeek仍是绕不开的门槛
@锦缎:
本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。离春节不到一周,过去两年的经验告诉我们,国产AI新产品的爆发期又要来了。Kimi K2.5在OpenRouter上一骑绝尘,Minimax也在官网上隐隐约约透露出M2.2的版本代号。大家等得很焦急,智谱和DeepSeek年前是不是也得来点大动作?这不,短短48小时内,三个独立的技术平台接连出现了与智谱新模型GLM-5相关的线索,形成了一条完整的信息链。01 线索浮现:三平台齐曝 GLM-5 踪迹2月7日,OpenRouter平台悄悄上线了一款代号为“pony-alpha”的模型。根据实际测试的结果,它的思维链风格与智谱的GLM系列高度吻合,比如:遇到常规回答,它会以“嗯,......”为开头进行思考;遇到知识检索任务,就分点列出“1.分析请求:...”;遇到代码任务,则会明确标注“用户要求......”。而技术社区在把这个模型投入实际开发后,发现它在贪吃蛇、Minecraft等复杂的代码生成任务中表现相当稳健,但缺乏图像等多模态输入支持。接下来的2月9日,vLLM推理框架仓库出现了编号为34124的pull request,在代码中首次明确出现了“GLM-5”标识。更重要的是,代码表明其实现逻辑直接复用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)机制,并集成了MTP(Multi-Token Prediction,多标记预测)技术。几乎同时,Hugging Face transformers仓库合并了编号为43858的pull request,正式引入了智谱的GlmMoeDsa架构。代码显示,GLM-5采用了78层Transformer解码器,前三层为稠密(Dense)结构,第四层及以后采用混合专家(MoE)架构,共配置256个专家网络,处理单个t