Fred_6810
01-29
生产效率的提升,如果导致价值缩水,这个行业必将终结啊😦
华尔街深度研究:DeepSeek真能击败美国AI界吗?
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":397896773931632,"tweetId":"397896773931632","gmtCreate":1738165339968,"gmtModify":1738165341367,"author":{"id":3563140991934227,"idStr":"3563140991934227","authorId":3563140991934227,"authorIdStr":"3563140991934227","name":"Fred_6810","avatar":"https://static.tigerbbs.com/fbe236f23155302a4dcecbf04d2e9040","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":7,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":134,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>生产效率的提升,如果导致价值缩水,这个行业必将终结啊😦</p></body></html>","htmlText":"<html><head></head><body><p>生产效率的提升,如果导致价值缩水,这个行业必将终结啊😦</p></body></html>","text":"生产效率的提升,如果导致价值缩水,这个行业必将终结啊😦","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/397896773931632","repostId":1129375603,"repostType":2,"repost":{"id":"1129375603","kind":"news","pubTimestamp":1738164070,"share":"https://www.laohu8.com/m/news/1129375603?lang=&edition=full","pubTime":"2025-01-29 23:21","market":"us","language":"zh","title":"华尔街深度研究:DeepSeek真能击败美国AI界吗?","url":"https://stock-news.laohu8.com/highlight/detail?id=1129375603","media":"硬AI","summary":"“500万美元复制OpenAI”是误读。","content":"<html><head></head><body><p>春节期间,DeepSeek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。</p><p style=\"text-align: justify;\">市场上甚至出现了DeepSeek"仅用500万美元就复制OpenAI"的说法,认为这将给整个AI基础设施产业带来“末日”。</p><p style=\"text-align: justify;\">对此,华尔街知名投行伯恩斯坦在详细研究DeepSeek技术文档后发布报告称,<strong>这种市场恐慌情绪明显过度,DeepSeek用“500万美元复制OpenAI”是市场误读。</strong></p><p style=\"text-align: justify;\">另外,该行认为,虽然DeepSeek的效率提升显著,但从技术角度看,并非奇迹。而且,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。</p><p style=\"text-align: justify;\">该行还表示,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对AI板块保持乐观。</p><h2 id=\"id_3058056930\" style=\"text-align: start;\">“500万美元复制OpenAI”是误读</h2><p style=\"text-align: justify;\">对于“500万美元复制OpenAI”的说法,伯恩斯坦认为,实际上是对DeepSeek V3模型训练成本的片面解读,简单将GPU租用成本计算等同于了总投入:</p><blockquote><p style=\"text-align: justify;\"><strong>这500万美元仅仅是基于每GPU小时2美元的租赁价格估算的V3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用</strong>。</p></blockquote><h2 id=\"id_1352850676\" style=\"text-align: start;\">技术创新:效率大幅提升但非颠覆性突破</h2><p style=\"text-align: justify;\">接着,伯恩斯坦在报告中详细分析了DeepSeek发布的两大模型V3、R1详细技术特点。</p><p style=\"text-align: justify;\"><strong>(1)V3模型的效率革命</strong></p><p style=\"text-align: justify;\">该行表示,V3模型采用专家混合架构,用2048块NVIDIA H800 GPU、约270万GPU小时就达到了可与主流大模型媲美的性能。</p><p style=\"text-align: justify;\">具体而言,V3模型采用了<strong>混合专家(MoE)架构</strong>,这一架构本身就旨在降低训练和运行成本。在此基础上,V3还结合了<strong>多头潜在注意力(MHLA)技术</strong>,显著降低了缓存大小和内存使用。</p><p style=\"text-align: justify;\">同时,<strong>FP8混合精度训练</strong>的运用进一步优化了性能表现。这些技术的综合运用,使得V3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。</p><p style=\"text-align: justify;\">例如,V3预训练仅需约270万GPU小时,而同样规模的开源LLaMA模型则需要约3000万GPU小时。</p><ul style=\"\"><li><p><strong>MoE架构:</strong> 每次只激活部分参数,减少计算量。</p></li><li><p><strong>MHLA技术:</strong> 降低内存占用,提升效率。</p></li><li><p><strong>FP8混合精度训练:</strong> 在保证性能的同时,进一步提升计算效率。</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c4543f9f116cb4ba8201679ceafb04db\" title=\"\" tg-width=\"1024\" tg-height=\"1221\"/></p><p style=\"text-align: justify;\">谈及V3模型带来的效率提升,伯恩斯坦认为,<strong>与业界3-7倍的常见效率提升相比并非颠覆性突破:</strong></p><blockquote><p style=\"text-align: justify;\">MoE架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练V3时,只有671B个参数中的37B为任何一个令牌更新,而密集模型中所有参数都被更新)。</p><p style=\"text-align: justify;\">对其他MoE比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;</p><p style=\"text-align: justify;\">V3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得歇斯底里。</p></blockquote><p style=\"text-align: justify;\"><strong>(2)R1模型的推理能力与“蒸馏”策略</strong></p><p style=\"text-align: justify;\">DeepSeek的R1模型则在V3的基础上,通过强化学习(RL)等创新技术,显著提升了推理能力,使其能够与OpenAI的o1模型相媲美。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/db8785cd3b64cf48b0d974e20351aa9c\" title=\"\" tg-width=\"1000\" tg-height=\"706\"/></p><p style=\"text-align: justify;\">值得一提的是,DeepSeek还采用了“<strong>模型蒸馏</strong>”策略,利用R1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与OpenAI的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为AI技术的普及提供了新的思路。</p><ul style=\"\"><li><p><strong>强化学习(RL):</strong> 提升模型推理能力。</p></li><li><p><strong>模型蒸馏:</strong> 利用大模型训练小模型,降低成本。</p></li></ul><h2 id=\"id_1334363986\" style=\"text-align: start;\">对AI板块保持乐观</h2><p style=\"text-align: justify;\">伯恩斯坦认为,<strong>即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。</strong></p><p style=\"text-align: justify;\">事实上,<strong>在“模型规模定律”不断推动成本上升的背景下,像MoE、模型蒸馏、混合精度计算等创新对AI发展至关重要。</strong></p><p style=\"text-align: justify;\">根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。<strong>该行认为,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。</strong></p><p style=\"text-align: justify;\">基于以上分析,伯恩斯坦对AI板块保持乐观。</p></body></html>","source":"lsy1690508328926","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>华尔街深度研究:DeepSeek真能击败美国AI界吗?</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n华尔街深度研究:DeepSeek真能击败美国AI界吗?\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-01-29 23:21 北京时间 <a href=https://wallstreetcn.com/articles/3740193><strong>硬AI</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>春节期间,DeepSeek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。市场上甚至出现了DeepSeek\"仅用500万美元就复制OpenAI\"的说法,认为这将给整个AI基础设施产业带来“末日”。对此,华尔街知名投行伯恩斯坦在详细研究DeepSeek技术文档后发布报告称,这种市场恐慌情绪明显过度,DeepSeek用“500万美元复制OpenAI”是市场误读。另外,该行认为,虽然...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3740193\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/0c4e1ff8a8f3ef9b71959d07d4048d2e","relate_stocks":{"META":"Meta Platforms, Inc.","NVDA":"英伟达","GOOG":"谷歌","MSFT":"微软"},"source_url":"https://wallstreetcn.com/articles/3740193","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1129375603","content_text":"春节期间,DeepSeek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。市场上甚至出现了DeepSeek\"仅用500万美元就复制OpenAI\"的说法,认为这将给整个AI基础设施产业带来“末日”。对此,华尔街知名投行伯恩斯坦在详细研究DeepSeek技术文档后发布报告称,这种市场恐慌情绪明显过度,DeepSeek用“500万美元复制OpenAI”是市场误读。另外,该行认为,虽然DeepSeek的效率提升显著,但从技术角度看,并非奇迹。而且,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。该行还表示,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对AI板块保持乐观。“500万美元复制OpenAI”是误读对于“500万美元复制OpenAI”的说法,伯恩斯坦认为,实际上是对DeepSeek V3模型训练成本的片面解读,简单将GPU租用成本计算等同于了总投入:这500万美元仅仅是基于每GPU小时2美元的租赁价格估算的V3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用。技术创新:效率大幅提升但非颠覆性突破接着,伯恩斯坦在报告中详细分析了DeepSeek发布的两大模型V3、R1详细技术特点。(1)V3模型的效率革命该行表示,V3模型采用专家混合架构,用2048块NVIDIA H800 GPU、约270万GPU小时就达到了可与主流大模型媲美的性能。具体而言,V3模型采用了混合专家(MoE)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,V3还结合了多头潜在注意力(MHLA)技术,显著降低了缓存大小和内存使用。同时,FP8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得V3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。例如,V3预训练仅需约270万GPU小时,而同样规模的开源LLaMA模型则需要约3000万GPU小时。MoE架构: 每次只激活部分参数,减少计算量。MHLA技术: 降低内存占用,提升效率。FP8混合精度训练: 在保证性能的同时,进一步提升计算效率。谈及V3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:MoE架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练V3时,只有671B个参数中的37B为任何一个令牌更新,而密集模型中所有参数都被更新)。对其他MoE比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;V3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得歇斯底里。(2)R1模型的推理能力与“蒸馏”策略DeepSeek的R1模型则在V3的基础上,通过强化学习(RL)等创新技术,显著提升了推理能力,使其能够与OpenAI的o1模型相媲美。值得一提的是,DeepSeek还采用了“模型蒸馏”策略,利用R1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与OpenAI的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为AI技术的普及提供了新的思路。强化学习(RL): 提升模型推理能力。模型蒸馏: 利用大模型训练小模型,降低成本。对AI板块保持乐观伯恩斯坦认为,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。事实上,在“模型规模定律”不断推动成本上升的背景下,像MoE、模型蒸馏、混合精度计算等创新对AI发展至关重要。根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。基于以上分析,伯恩斯坦对AI板块保持乐观。","news_type":1},"isVote":1,"tweetType":1,"viewCount":341,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":52,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/397896773931632"}
精彩评论