气球气球
12-01
撒谎第一
开源最强,逼平闭源顶流!DeepSeek发布V3.2系列模型,推理能力追平GPT-5
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
1
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":506100538786256,"tweetId":"506100538786256","gmtCreate":1764590302412,"gmtModify":1764590304941,"author":{"id":3479077389013994,"idStr":"3479077389013994","authorId":3479077389013994,"authorIdStr":"3479077389013994","name":"气球气球","avatar":"https://static.tigerbbs.com/e5a7606775673bc405a1e12fc72e04d7","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":2,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"title":"","html":"<html><head></head><body><p>撒谎第一</p></body></html>","htmlText":"<html><head></head><body><p>撒谎第一</p></body></html>","text":"撒谎第一","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/506100538786256","repostId":2588972145,"repostType":4,"repost":{"id":"2588972145","kind":"highlight","weMediaInfo":{"introduction":"追踪全球财经热点,精选影响您财富的资讯,投资理财必备神器!","home_visible":1,"media_name":"华尔街见闻","id":"1084101182","head_image":"https://static.tigerbbs.com/66809d1f5c2e43e2bdf15820c6d6897e"},"pubTimestamp":1764588339,"share":"https://www.laohu8.com/m/news/2588972145?lang=zh_CN&edition=full","pubTime":"2025-12-01 19:25","market":"sh","language":"zh","title":"开源最强,逼平闭源顶流!DeepSeek发布V3.2系列模型,推理能力追平GPT-5","url":"https://stock-news.laohu8.com/highlight/detail?id=2588972145","media":"华尔街见闻","summary":"DeepSeek发布V3.2系列两款模型并开源。V3.2主打日常应用,推理能力达GPT-5水平,首次实现思考模式与工具调用融合;V3.2-Speciale专注极致推理,在IMO、CMO、ICPC、IOI四项国际竞赛中斩获金牌。两款模型均已在HuggingFace和ModelScope开源,标志着开源模型与闭源商业模型性能差距进一步缩小,开源达到顶流水平。","content":"<html><head></head><body><blockquote><p>DeepSeek发布V3.2系列两款模型并开源。V3.2主打日常应用,推理能力达GPT-5水平,首次实现思考模式与工具调用融合;V3.2-Speciale专注极致推理,在IMO、CMO、ICPC、IOI四项国际竞赛中斩获金牌。两款模型均已在HuggingFace和ModelScope开源,标志着开源模型与闭源商业模型性能差距进一步缩小,开源达到顶流水平。</p></blockquote><p>DeepSeek今天(12月1日)同步推出两款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者主打日常应用场景,后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。</p><p>该公司表示,DeepSeek-V3.2在<strong>公开推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro</strong>。相比同类产品Kimi-K2-Thinking,新模型输出长度大幅降低,显著减少了计算开销与用户等待时间。官方网页、APP和API服务已全面更新至V3.2版本。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c286999629236782e757ae001e2854f6\" tg-width=\"1024\" tg-height=\"729\"/></p><p><strong>增强版V3.2-Speciale在IMO 2025、CMO 2025等四项国际顶级竞赛中斩获金牌,其中在ICPC与IOI成绩分别达到人类选手第二名与第十名水平。</strong>该版本结合了DeepSeek-Math-V2的定理证明能力,专注于将开源模型推理能力推向极致。</p><p>两款模型均已在HuggingFace和ModelScope平台开源。V3.2-Speciale目前仅以临时API形式开放至12月15日,供社区评测与研究使用。</p><h2 id=\"id_3848083085\">推理性能对标顶尖闭源模型</h2><p>DeepSeek-V3.2定位为平衡推理能力与输出长度的日常使用模型,适合问答场景和通用Agent任务。<strong>在主流推理基准测试中,该模型表现接近Gemini-3.0-Pro水平。</strong></p><p>DeepSeek-V3.2-Speciale作为长思考增强版本,具备严谨的数学证明与逻辑验证能力,在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025四项国际竞赛中均获金牌。这是开源模型首次在如此广泛的顶级竞赛中取得突破性成绩。</p><p>但该公司提示,Speciale版本在处理高度复杂任务时消耗的Tokens显著更多、成本更高,目前仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务优化。</p><h2 id=\"id_1910849632\">首次实现思考模式与工具调用融合</h2><p>DeepSeek-V3.2是该公司首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。该公司提出了一种大规模Agent训练数据合成方法,构造了1800多个环境、85000多条复杂指令的强化学习任务。</p><p>根据技术报告,V3.2在智能体评测中达到当前开源模型最高水平,大幅缩小了开源模型与闭源模型在工具调用能力上的差距。该公司表示,模型并未针对测试集工具进行特殊训练,预计在真实应用场景<a href=\"https://laohu8.com/S/00228\">中能</a>展现较强泛化性。</p><p>在思考模式下,模型能够经过多轮思考加工具调用后给出更详尽准确的回答。该功能已增加对Claude Code的支持,但暂未充分适配Cline、RooCode等使用非标准工具调用的组件。</p><h2 id=\"id_1073802665\">DSA稀疏注意力机制获验证</h2><p>该公司两个月前发布的实验性DeepSeek-V3.2-Exp收到众多用户对比测试反馈。目前未发现该版本在任何特定场景中显著差于V3.1-Terminus,验证了DSA稀疏注意力机制的有效性。</p><p>官方网页端、APP和API均已更新为正式版DeepSeek-V3.2。V3.2-Speciale的临时API服务可通过特定base_url访问,该模型API价格不变,最大输出长度默认为128K,服务截止至北京时间12月15日。</p><p>两款模型已在HuggingFace和ModelScope平台开源,技术报告同步发布。该公司表示用户的积极反馈为其持续创新注入了更多信心与动力。</p><p><strong>Deepseek官方新闻稿全文如下:</strong></p><p>两个月前,我们发布了实验性的 DeepSeek-V3.2-Exp,并收到了众多热心用户反馈的对比测试结果。目前未发现 V3.2-Exp 在任何特定场景中显著差于 V3.1-Terminus,这验证了 DSA 稀疏注意力机制的有效性。也感谢广大用户一直以来的积极反馈与支持,为我们的持续创新注入了更多信心与动力。</p><p>今天,我们同时发布两个正式版模型:</p><p><strong>DeepSeek-V3.2</strong> 和 <strong>DeepSeek-V3.2-Speciale。</strong></p><p>官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2,欢迎使用。Speciale 版本目前仅以临时 API 服务形式开放,以供社区评测与研究。</p><p>新模型技术报告已同步发布:</p><p>https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/11de3444bdda981ed4838d36c678b646\" tg-width=\"1024\" tg-height=\"570\"/></p><h2 id=\"id_3143161620\">推理能力全球领先</h2><ul style=\"\"><li><p><strong>DeepSeek-V3.2</strong> 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。</p></li><li><p><strong>DeepSeek-V3.2-Speciale</strong> 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale 模型<strong>成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌</strong>。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。</p></li></ul><p>Tips:在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c286999629236782e757ae001e2854f6\" tg-width=\"1024\" tg-height=\"729\"/></p><p>表1:DeepSeek-V3.2 与其他模型在各类数学、代码与通用领域评测集上的得分(括号内为消耗 Tokens 总量约数)</p><h2 id=\"id_1446691162\">思考融入工具调用</h2><ul style=\"\"><li><p>不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2 是我们推出的首个<strong>将思考融入工具使用</strong>的模型,并且同时支持思考模式与非思考模式的工具调用。我们提出了一种大规模 Agent 训练数据合成方法,构造了大量“难解答,易验证”的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/4b7899a1bcc37878b7e62952acbfa12f\" tg-width=\"1024\" tg-height=\"216\"/></p><p>表2:DeepSeek-V3.2 与其他模型在各类智能体工具调用评测集上的得分</p><ul style=\"\"><li><p>如表 2 所示,DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。值得说明的是,V3.2 并没有针对这些测试集的工具进行特殊训练,所以我们相信,V3.2 在真实应用场景中能够展现出较强的泛化性。</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/be1ed050e8b84db8474e75a38bca9be8\" tg-width=\"1024\" tg-height=\"689\"/></p><p>示例为通过 LobeChat 使用 DeepSeek-V3.2 的深度思考+工具调用能力得到更加详细准确的回复</p><h2 id=\"id_3232753242\">开源</h2><ul style=\"\"><li><p>DeepSeek-V3.2</p></li></ul><p>HuggingFace:</p><p>https://huggingface.co/deepseek-ai/DeepSeek-V3.2</p><p>ModelScope:</p><p>https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2</p><ul style=\"\"><li><p>DeepSeek-V3.2-Speciale</p></li></ul><p>HuggingFace:</p><p>https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale</p><p>ModelScope:</p><p>https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale</p><h2 id=\"id_3706015380\">网页端、APP 与 API 更新</h2><p>DeepSeek-V3.2 是我们当前正式提供服务的模型,官网网页、APP、API 模型均已由 DeepSeek-V3.2-Exp 升级为正式版 DeepSeek-V3.2,使用方式不变。</p><p>同时,为了方便社区评测与研究,我们非正式部署了 DeepSeek-V3.2-Speciale 的 API 服务,API 用户可以通过设置</p><p>base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"</p><p>访问该模型。该模型 API 价格不变,只支持思考模式下的对话功能,不支持工具调用等功能,最大输出长度默认为 128K,支持时间截止至北京时间 2025-12-15 23:59。</p><h2 id=\"id_377379860\">思考模式下的工具调用</h2><p>本次 API 更新<strong>支持了 DeepSeek-V3.2 思考模式下的工具调用能力</strong>。当前在思考模式下,模型能够经过多轮的思考 + 工具调用,最终给出更详尽准确的回答。下图为思考模式下进行工具调用的 API 请求示意图:</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d9385445cd6d764ff18c77692b4cd524\" tg-width=\"1024\" tg-height=\"555\"/></p><ul style=\"\"><li><p>在回答问题 1 过程中(请求 1.1 - 1.3),模型进行了多次思考 + 工具调用后给出答案。在这个过程中,用户需回传思维链内容(reasoning_content)给 API,以让模型继续思考。</p></li><li><p>在下一个用户问题开始时(请求 2.1),需删除之前的思维链,并保留其它内容发送给 API。</p></li><li><p>更详细的使用方法请参考 API 文档:</p><p>https://api-docs.deepseek.com/zh-cn/guides/thinking_mode</p></li></ul><p>DeepSeek-V3.2 的思考模式也<strong>增加了对 Claude Code 的支持</strong>,用户可以通过将模型名改为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键开启思考模式进行使用。但需要注意的是,思考模式<strong>未充分适配 Cline、RooCode</strong> 等使用非标准工具调用的组件,我们建议用户在使用此类组件时继续使用<strong>非思考</strong>模式。</p></body></html>","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>开源最强,逼平闭源顶流!DeepSeek发布V3.2系列模型,推理能力追平GPT-5</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n开源最强,逼平闭源顶流!DeepSeek发布V3.2系列模型,推理能力追平GPT-5\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-12-01 19:25 北京时间 <a href=https://wallstreetcn.com/articles/3760461><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>DeepSeek发布V3.2系列两款模型并开源。V3.2主打日常应用,推理能力达GPT-5水平,首次实现思考模式与工具调用融合;V3.2-Speciale专注极致推理,在IMO、CMO、ICPC、IOI四项国际竞赛中斩获金牌。两款模型均已在HuggingFace和ModelScope开源,标志着开源模型与闭源商业模型性能差距进一步缩小,开源达到顶流水平。DeepSeek今天(12月1日)同步推出...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3760461\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/a2d10971e5f3c03dc2f148badda342d3","relate_stocks":{"GPT":"Intelligent alpha atlas ETF","GPT.AU":"GPT GROUP"},"source_url":"https://wallstreetcn.com/articles/3760461","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2588972145","content_text":"DeepSeek发布V3.2系列两款模型并开源。V3.2主打日常应用,推理能力达GPT-5水平,首次实现思考模式与工具调用融合;V3.2-Speciale专注极致推理,在IMO、CMO、ICPC、IOI四项国际竞赛中斩获金牌。两款模型均已在HuggingFace和ModelScope开源,标志着开源模型与闭源商业模型性能差距进一步缩小,开源达到顶流水平。DeepSeek今天(12月1日)同步推出两款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者主打日常应用场景,后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。该公司表示,DeepSeek-V3.2在公开推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro。相比同类产品Kimi-K2-Thinking,新模型输出长度大幅降低,显著减少了计算开销与用户等待时间。官方网页、APP和API服务已全面更新至V3.2版本。增强版V3.2-Speciale在IMO 2025、CMO 2025等四项国际顶级竞赛中斩获金牌,其中在ICPC与IOI成绩分别达到人类选手第二名与第十名水平。该版本结合了DeepSeek-Math-V2的定理证明能力,专注于将开源模型推理能力推向极致。两款模型均已在HuggingFace和ModelScope平台开源。V3.2-Speciale目前仅以临时API形式开放至12月15日,供社区评测与研究使用。推理性能对标顶尖闭源模型DeepSeek-V3.2定位为平衡推理能力与输出长度的日常使用模型,适合问答场景和通用Agent任务。在主流推理基准测试中,该模型表现接近Gemini-3.0-Pro水平。DeepSeek-V3.2-Speciale作为长思考增强版本,具备严谨的数学证明与逻辑验证能力,在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025四项国际竞赛中均获金牌。这是开源模型首次在如此广泛的顶级竞赛中取得突破性成绩。但该公司提示,Speciale版本在处理高度复杂任务时消耗的Tokens显著更多、成本更高,目前仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务优化。首次实现思考模式与工具调用融合DeepSeek-V3.2是该公司首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。该公司提出了一种大规模Agent训练数据合成方法,构造了1800多个环境、85000多条复杂指令的强化学习任务。根据技术报告,V3.2在智能体评测中达到当前开源模型最高水平,大幅缩小了开源模型与闭源模型在工具调用能力上的差距。该公司表示,模型并未针对测试集工具进行特殊训练,预计在真实应用场景中能展现较强泛化性。在思考模式下,模型能够经过多轮思考加工具调用后给出更详尽准确的回答。该功能已增加对Claude Code的支持,但暂未充分适配Cline、RooCode等使用非标准工具调用的组件。DSA稀疏注意力机制获验证该公司两个月前发布的实验性DeepSeek-V3.2-Exp收到众多用户对比测试反馈。目前未发现该版本在任何特定场景中显著差于V3.1-Terminus,验证了DSA稀疏注意力机制的有效性。官方网页端、APP和API均已更新为正式版DeepSeek-V3.2。V3.2-Speciale的临时API服务可通过特定base_url访问,该模型API价格不变,最大输出长度默认为128K,服务截止至北京时间12月15日。两款模型已在HuggingFace和ModelScope平台开源,技术报告同步发布。该公司表示用户的积极反馈为其持续创新注入了更多信心与动力。Deepseek官方新闻稿全文如下:两个月前,我们发布了实验性的 DeepSeek-V3.2-Exp,并收到了众多热心用户反馈的对比测试结果。目前未发现 V3.2-Exp 在任何特定场景中显著差于 V3.1-Terminus,这验证了 DSA 稀疏注意力机制的有效性。也感谢广大用户一直以来的积极反馈与支持,为我们的持续创新注入了更多信心与动力。今天,我们同时发布两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2,欢迎使用。Speciale 版本目前仅以临时 API 服务形式开放,以供社区评测与研究。新模型技术报告已同步发布:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf推理能力全球领先DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。Tips:在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。表1:DeepSeek-V3.2 与其他模型在各类数学、代码与通用领域评测集上的得分(括号内为消耗 Tokens 总量约数)思考融入工具调用不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2 是我们推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。我们提出了一种大规模 Agent 训练数据合成方法,构造了大量“难解答,易验证”的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。表2:DeepSeek-V3.2 与其他模型在各类智能体工具调用评测集上的得分如表 2 所示,DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。值得说明的是,V3.2 并没有针对这些测试集的工具进行特殊训练,所以我们相信,V3.2 在真实应用场景中能够展现出较强的泛化性。示例为通过 LobeChat 使用 DeepSeek-V3.2 的深度思考+工具调用能力得到更加详细准确的回复开源DeepSeek-V3.2HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2DeepSeek-V3.2-SpecialeHuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-SpecialeModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale网页端、APP 与 API 更新DeepSeek-V3.2 是我们当前正式提供服务的模型,官网网页、APP、API 模型均已由 DeepSeek-V3.2-Exp 升级为正式版 DeepSeek-V3.2,使用方式不变。同时,为了方便社区评测与研究,我们非正式部署了 DeepSeek-V3.2-Speciale 的 API 服务,API 用户可以通过设置base_url=\"https://api.deepseek.com/v3.2_speciale_expires_on_20251215\"访问该模型。该模型 API 价格不变,只支持思考模式下的对话功能,不支持工具调用等功能,最大输出长度默认为 128K,支持时间截止至北京时间 2025-12-15 23:59。思考模式下的工具调用本次 API 更新支持了 DeepSeek-V3.2 思考模式下的工具调用能力。当前在思考模式下,模型能够经过多轮的思考 + 工具调用,最终给出更详尽准确的回答。下图为思考模式下进行工具调用的 API 请求示意图:在回答问题 1 过程中(请求 1.1 - 1.3),模型进行了多次思考 + 工具调用后给出答案。在这个过程中,用户需回传思维链内容(reasoning_content)给 API,以让模型继续思考。在下一个用户问题开始时(请求 2.1),需删除之前的思维链,并保留其它内容发送给 API。更详细的使用方法请参考 API 文档:https://api-docs.deepseek.com/zh-cn/guides/thinking_modeDeepSeek-V3.2 的思考模式也增加了对 Claude Code 的支持,用户可以通过将模型名改为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键开启思考模式进行使用。但需要注意的是,思考模式未充分适配 Cline、RooCode 等使用非标准工具调用的组件,我们建议用户在使用此类组件时继续使用非思考模式。","news_type":1,"symbols_score_info":{"GPT":1.5,"GPT.AU":1.5}},"isVote":1,"tweetType":1,"viewCount":273,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":8,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/506100538786256"}
精彩评论