这篇文章不错，转发给_老虎社区_美港股上老虎

这篇文章不错，转发给大家看看

DeepSeek最新发文！V3/R1训练细节全公开！

DeepSeek近日公布了其大模型V3/R1的训练细节。在预训练阶段，模型通过大规模数据学习语言模式与知识，而优化训练则通过特定任务数据调整模型参数，以适应实际应用。为确保数据质量和安全，DeepSeek采取了多项措施，包括数据清洗、算法偏见识别和匿名化处理等，并强调模型训练不依赖用户个人信息。

DeepSeek最新发文！V3/R1训练细节全公开！

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

热议股票

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":474174368649680,"tweetId":"474174368649680","gmtCreate":1756738521101,"gmtModify":1756738522909,"author":{"id":117671652657860,"idStr":"117671652657860","authorId":117671652657860,"authorIdStr":"117671652657860","name":"梦想168","avatar":"https://static.laohu8.com/default-avatar.jpg","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":3,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":1,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body>这篇文章不错，转发给大家看看</body></html>","htmlText":"<html><head></head><body>这篇文章不错，转发给大家看看</body></html>","text":"这篇文章不错，转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/474174368649680","repostId":2564125258,"repostType":2,"repost":{"id":"2564125258","kind":"news","pubTimestamp":1756728691,"share":"https://www.laohu8.com/m/news/2564125258?lang=&edition=full","pubTime":"2025-09-01 20:11","market":"us","language":"zh","title":"DeepSeek最新发文！V3/R1训练细节全公开！","url":"https://stock-news.laohu8.com/highlight/detail?id=2564125258","media":"华尔街见闻","summary":"DeepSeek近日公布了其大模型V3/R1的训练细节。在预训练阶段，模型通过大规模数据学习语言模式与知识，而优化训练则通过特定任务数据调整模型参数，以适应实际应用。为确保数据质量和安全，DeepSeek采取了多项措施，包括数据清洗、算法偏见识别和匿名化处理等，并强调模型训练不依赖用户个人信息。","content":"<html><head></head><body>今天，网信办《人工智能生成合成内容标识办法》正式生效。其中，第四条要求：对符合要求的AI生成合成内容添加显式标识。紧跟最新政策，DeepSeek出手了。刚刚，DeepSeek官微发布了最新回应公告——凡是AI生成的内容，都会清楚标注“AI生成”。它还郑重提醒，用户严禁恶意删除、篡改、隐匿标识，更别提用AI传播、制作虚假信息。<img src=\"https://static.tigerbbs.com/072b1f4324af0d87f4e07bb54d621904\" tg-width=\"1024\" tg-height=\"871\"/>此外，这次还发布了《模型原理与训练方法说明》，可以一瞥DeepSeek的技术路径。接下来，深扒一下DeepSeek V3/R1的一些训练细节。<img src=\"https://static.tigerbbs.com/35ccad9fa8fb22615b4882520df242fa\" tg-width=\"1024\" tg-height=\"261\"/><h2 id=\"id_3570499020\">回应新要求，DeepSeek公开技术说明</h2>DeepSeek主要介绍了大模型的训练和推理阶段，包括预训练、优化训练（微调）以及训练数据等。<img src=\"https://static.tigerbbs.com/1b87fef33dd9f2c7e2965acee980c01a\" tg-width=\"1024\" tg-height=\"714\"/>不同大模型的神经网络架构模型训练模型训练阶段即模型的开发阶段：通过设计好的深度神经网络架构和训练方法，开发人员开发出可被部署使用的模型。模型由多层神经网络组成，不同的架构直接影响模型的性能。此外，模型性能也受参数规模的制约，而训练的目的就是找到具体的参数值。<img src=\"https://static.tigerbbs.com/ac400c4e8174777604c5e3f62b6d6796\" tg-width=\"1024\" tg-height=\"926\"/>目前，大模型的参数规模数以亿计。最新的DeepSeek-V3-0324，参数总量为6850亿。在训练过程中，这些参数通过梯度下降算法迭代优化。<img src=\"https://static.tigerbbs.com/929aedaa3b7b29b623bcb90a75fb8b96\" tg-width=\"1024\" tg-height=\"786\"/>这次，DeepSeek把模型训练分为预训练和优化训练两个环节。<blockquote>预训练：预训练目标是通过数据训练模型，使模型掌握通用的语言理解与生成能力。  优化训练：也称为微调，是在预训练模型的基础上通过特定任务的数据进一步调整模型参数，使模型适应实际应用场景。</blockquote>在预训练阶段，模型通过大规模自监督学习，从文本数据中学习语言模式与知识关联。预训练完成后，模型能理解并生成连贯的文本，但还不会精准地回答问题或执行任务，因此需要进一步的训练微调。在优化训练阶段，模型一般通过SFT、RL等方法，学会根据指令回答问题，符合人类的偏好和需求，并激发在特定领域的专业能力。<img src=\"https://static.tigerbbs.com/a0baceedc4eaa07ecb8d9bf6525dc07a\" tg-width=\"638\" tg-height=\"584\"/>经过优化训练的模型能更好地满足实际需求，可被部署使用。<h2 id=\"id_2127093784\">深挖训练“内幕”，炼出最强大脑</h2>DeepSeek模型的能力，是建立在高质量、大规模、多样化的数据之上。在“预训练阶段”和“优化训练阶段”，各有不同。预训练阶段在预训练阶段，主要使用了两类数据：<blockquote>互联网公开可用的信息，比如网页、公开文档等。  与第三方合作获取许可的数据</blockquote>需要强调的是，在此阶段，根本无需获取个人信息用于训练，DeepSeek不会有意关联至任何特定账户和个人，更不会主动将其用于训练模型。不过，预训练数据规模过于庞大，可能偶然包含了一些个人信息。对此，DeepSeek会通过技术手段，尽力筛查并移除这些信息，确保数据“干干净净”。为了保证数据质量、安全、多样，他们还打造了一套硬核数据治理流程——首先，通过“过滤器”自动剔除仇恨言论、色情低俗、暴力、垃圾信息，以及可能侵权的原始数据。其次，通过算法+人工审核，识别并降低数据中的统计性偏见，让模型更公平、更客观。优化训练阶段到了优化训练阶段，一般需要通过人工或自动化的方式构造、标注一批问答对数据来对模型进行训练。DeepSeek这次表示：这些问答对数据是由研究团队生成提供的，其中少部分数据的构造可能会基于用户的输入。<img src=\"https://static.tigerbbs.com/f724c0300697280c886fcda7572d5cad\" tg-width=\"1024\" tg-height=\"296\"/>在DeepSeek-R1训练中，研究人员直接提示模型生成包含反思和验证的详细答案；收集并整理DeepSeek-R1-Zero的输出，使其具有可读性；以及通过人工注释者的后期处理来提高数据质量如涉及利用用户的输入构造训练数据，DeepSeek会对数据进行安全加密技术处理、严格的去标识化和匿名化处理，从而尽可能避免训练数据关联到任何特定个人，且不会在模型给其他用户的输出中带有个人信息，更不会将其用于用户画像或个性化推荐。同时，DeepSeek为用户提供了选择退出的权利。为了确保模型的安全性，在模型优化训练阶段，DeepSeek构造了专门的安全数据对模型进行安全对齐，教会模型的回复符合人类的价值观，增强模型内生的安全能力。模型推理模型的推理阶段即模型被部署提供服务。模型训练完成并被部署后，可以通过对输入信息进行编码和计算来预测下一个token，从而具备文本生成和对话等能力。部署后的模型能够熟练执行基于文本生成的广泛多样的任务，并可以集成到各种下游系统或应用中。具体到DeepSeek的产品服务，基于用户的输入，模型采用自回归生成方式，基于输入的上下文内容，通过概率计算预测最可能的接续词汇序列。<img src=\"https://static.tigerbbs.com/8d1df690c48a7ea8c900ea74c8265455\" tg-width=\"1024\" tg-height=\"341\"/>推理完成后，模型输出相应的内容作为响应，包括文字、表格和代码等。此并非简单检索或“复制粘贴”训练数据中的原始文本，模型也并未存储用于训练的原始文本数据副本，而是基于对语言结构和语义关系的深度理解，动态生成符合语境的回答。DeepSeek这次还强调模型开源。<blockquote>我们通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等，并采用宽松的MIT协议，供使用者自由、免费下载部署使用。  同时，DeepSeek发布各模型的完整技术报告，供社区和研究人员参考，并帮助公众更深入地了解每个模型的技术原理和细节。</blockquote><h2 id=\"id_1608287211\">LLM致命幻觉，全周期硬核对抗</h2>毋庸置疑，当前AI发展还在早期阶段，存在无法避免的局限性。若是再被加以滥用，将会带来严重的后果。局限性AI往往会生成错误、遗漏，或不符合事实的内容，这种现象统一称之为“幻觉”。这个问题，是整个AI行业面临的挑战。对此，DeepSeek正通过一些技术手段降低幻觉率，包括高质量的训练数据、优化对齐策略、RAG等，但现阶段依无法完全消灭。同时，他们还在欢迎页、生成文本的末尾，以及交互界面底部，添加显著的提示标识。特别提醒用户——内容由人工智能生成，可能不准确。因此，AI生成的内容仅供参考，所有人不应将输出的内容作为专业建议。尤其是，在医疗、法律、金融等专业领域，DeepSeek不提供任何建议或承诺，专业的事儿还得找专业的人。<img src=\"https://static.tigerbbs.com/5d4e11d5ff7f7f0e352f75e6f678ace2\" tg-width=\"1024\" tg-height=\"576\"/>滥用风险AI技术本身是中立的，但滥用可能带来隐私保护、版权、数据安全、内容安全、偏见歧视等风险。DeepSeek对此也是高度重视，采取了一系列硬核措施，贯穿了模型研发、训练、部署的全生命周期。<blockquote>制定内部风险管理制度  开展模型安全性评估  进行红队测试  增强模型和服务透明度等</blockquote>更重要的是，DeepSeek还赋予了用户知情权、选择权、控制权——你可以查询服务的基本信息、拒绝其数据用于模型训练、删除其历史数据等。</body></html>","source":"wallstreetcn_hot_news","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>DeepSeek最新发文！V3/R1训练细节全公开！</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nDeepSeek最新发文！V3/R1训练细节全公开！\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-09-01 20:11 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3754708>华尔街见闻</a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n今天，网信办《人工智能生成合成内容标识办法》正式生效。其中，第四条要求：对符合要求的AI生成合成内容添加显式标识。紧跟最新政策，DeepSeek出手了。刚刚，DeepSeek官微发布了最新回应公告——凡是AI生成的内容，都会清楚标注“AI生成”。它还郑重提醒，用户严禁恶意删除、篡改、隐匿标识，更别提用AI传播、制作虚假信息。此外，这次还发布了《模型原理与训练方法说明》，可以一瞥DeepSeek的...\n\n<a href=\"https://wallstreetcn.com/articles/3754708\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/23dac3ab753f13d989663c75b5990935","relate_stocks":{},"source_url":"https://wallstreetcn.com/articles/3754708","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2564125258","content_text":"今天，网信办《人工智能生成合成内容标识办法》正式生效。其中，第四条要求：对符合要求的AI生成合成内容添加显式标识。紧跟最新政策，DeepSeek出手了。刚刚，DeepSeek官微发布了最新回应公告——凡是AI生成的内容，都会清楚标注“AI生成”。它还郑重提醒，用户严禁恶意删除、篡改、隐匿标识，更别提用AI传播、制作虚假信息。此外，这次还发布了《模型原理与训练方法说明》，可以一瞥DeepSeek的技术路径。接下来，深扒一下DeepSeek V3/R1的一些训练细节。回应新要求，DeepSeek公开技术说明DeepSeek主要介绍了大模型的训练和推理阶段，包括预训练、优化训练（微调）以及训练数据等。不同大模型的神经网络架构模型训练模型训练阶段即模型的开发阶段：通过设计好的深度神经网络架构和训练方法，开发人员开发出可被部署使用的模型。模型由多层神经网络组成，不同的架构直接影响模型的性能。此外，模型性能也受参数规模的制约，而训练的目的就是找到具体的参数值。目前，大模型的参数规模数以亿计。最新的DeepSeek-V3-0324，参数总量为6850亿。在训练过程中，这些参数通过梯度下降算法迭代优化。这次，DeepSeek把模型训练分为预训练和优化训练两个环节。预训练：预训练目标是通过数据训练模型，使模型掌握通用的语言理解与生成能力。  优化训练：也称为微调，是在预训练模型的基础上通过特定任务的数据进一步调整模型参数，使模型适应实际应用场景。在预训练阶段，模型通过大规模自监督学习，从文本数据中学习语言模式与知识关联。预训练完成后，模型能理解并生成连贯的文本，但还不会精准地回答问题或执行任务，因此需要进一步的训练微调。在优化训练阶段，模型一般通过SFT、RL等方法，学会根据指令回答问题，符合人类的偏好和需求，并激发在特定领域的专业能力。经过优化训练的模型能更好地满足实际需求，可被部署使用。深挖训练“内幕”，炼出最强大脑DeepSeek模型的能力，是建立在高质量、大规模、多样化的数据之上。在“预训练阶段”和“优化训练阶段”，各有不同。预训练阶段在预训练阶段，主要使用了两类数据：互联网公开可用的信息，比如网页、公开文档等。  与第三方合作获取许可的数据需要强调的是，在此阶段，根本无需获取个人信息用于训练，DeepSeek不会有意关联至任何特定账户和个人，更不会主动将其用于训练模型。不过，预训练数据规模过于庞大，可能偶然包含了一些个人信息。对此，DeepSeek会通过技术手段，尽力筛查并移除这些信息，确保数据“干干净净”。为了保证数据质量、安全、多样，他们还打造了一套硬核数据治理流程——首先，通过“过滤器”自动剔除仇恨言论、色情低俗、暴力、垃圾信息，以及可能侵权的原始数据。其次，通过算法+人工审核，识别并降低数据中的统计性偏见，让模型更公平、更客观。优化训练阶段到了优化训练阶段，一般需要通过人工或自动化的方式构造、标注一批问答对数据来对模型进行训练。DeepSeek这次表示：这些问答对数据是由研究团队生成提供的，其中少部分数据的构造可能会基于用户的输入。在DeepSeek-R1训练中，研究人员直接提示模型生成包含反思和验证的详细答案；收集并整理DeepSeek-R1-Zero的输出，使其具有可读性；以及通过人工注释者的后期处理来提高数据质量如涉及利用用户的输入构造训练数据，DeepSeek会对数据进行安全加密技术处理、严格的去标识化和匿名化处理，从而尽可能避免训练数据关联到任何特定个人，且不会在模型给其他用户的输出中带有个人信息，更不会将其用于用户画像或个性化推荐。同时，DeepSeek为用户提供了选择退出的权利。为了确保模型的安全性，在模型优化训练阶段，DeepSeek构造了专门的安全数据对模型进行安全对齐，教会模型的回复符合人类的价值观，增强模型内生的安全能力。模型推理模型的推理阶段即模型被部署提供服务。模型训练完成并被部署后，可以通过对输入信息进行编码和计算来预测下一个token，从而具备文本生成和对话等能力。部署后的模型能够熟练执行基于文本生成的广泛多样的任务，并可以集成到各种下游系统或应用中。具体到DeepSeek的产品服务，基于用户的输入，模型采用自回归生成方式，基于输入的上下文内容，通过概率计算预测最可能的接续词汇序列。推理完成后，模型输出相应的内容作为响应，包括文字、表格和代码等。此并非简单检索或“复制粘贴”训练数据中的原始文本，模型也并未存储用于训练的原始文本数据副本，而是基于对语言结构和语义关系的深度理解，动态生成符合语境的回答。DeepSeek这次还强调模型开源。我们通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等，并采用宽松的MIT协议，供使用者自由、免费下载部署使用。  同时，DeepSeek发布各模型的完整技术报告，供社区和研究人员参考，并帮助公众更深入地了解每个模型的技术原理和细节。LLM致命幻觉，全周期硬核对抗毋庸置疑，当前AI发展还在早期阶段，存在无法避免的局限性。若是再被加以滥用，将会带来严重的后果。局限性AI往往会生成错误、遗漏，或不符合事实的内容，这种现象统一称之为“幻觉”。这个问题，是整个AI行业面临的挑战。对此，DeepSeek正通过一些技术手段降低幻觉率，包括高质量的训练数据、优化对齐策略、RAG等，但现阶段依无法完全消灭。同时，他们还在欢迎页、生成文本的末尾，以及交互界面底部，添加显著的提示标识。特别提醒用户——内容由人工智能生成，可能不准确。因此，AI生成的内容仅供参考，所有人不应将输出的内容作为专业建议。尤其是，在医疗、法律、金融等专业领域，DeepSeek不提供任何建议或承诺，专业的事儿还得找专业的人。滥用风险AI技术本身是中立的，但滥用可能带来隐私保护、版权、数据安全、内容安全、偏见歧视等风险。DeepSeek对此也是高度重视，采取了一系列硬核措施，贯穿了模型研发、训练、部署的全生命周期。制定内部风险管理制度  开展模型安全性评估  进行红队测试  增强模型和服务透明度等更重要的是，DeepSeek还赋予了用户知情权、选择权、控制权——你可以查询服务的基本信息、拒绝其数据用于模型训练、删除其历史数据等。","news_type":1,"symbols_score_info":{}},"isVote":1,"tweetType":1,"viewCount":453,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}