社区
首页
集团介绍
社区
资讯
行情
学堂
TigerGPT
登录
注册
tiger20250101
IP属地:山东
+关注
帖子 · 6
帖子 · 6
关注 · 0
关注 · 0
粉丝 · 0
粉丝 · 0
tiger20250101
tiger20250101
·
04-03
可以豁免,毕竟组装厂这种货川普是不要的
看
642
回复
评论
点赞
点赞
编组 21备份 2
分享
举报
tiger20250101
tiger20250101
·
02-16
俩普通员工是谁?先开除掉…特斯拉没了马斯克不就是一平庸企业么?
特斯拉内部担心马斯克涉政伤害公司,有高管暗示“他该辞职”
认为他正在损害公司和可持续发展使命。
特斯拉内部担心马斯克涉政伤害公司,有高管暗示“他该辞职”
看
552
回复
评论
点赞
3
编组 21备份 2
分享
举报
tiger20250101
tiger20250101
·
02-03
不用等 deepseek 下一个版本,等 meta 等开源大厂下一个版本就行,他们采用 deepseek 的方法就 ok,再优化一下
看
866
回复
评论
点赞
点赞
编组 21备份 2
分享
举报
tiger20250101
tiger20250101
·
01-30
deepseek 肯定没有那么多芯片,10 亿美元对幻方来说,投入太大了
DeepSeek遭遇全球“猎巫”!微软、OpenAI拔网线,已在部分国家被下架
硅谷阴招和脏水泼向DeepSeek!智东西1月30日报道,春节期间吸引全球关注的DeepSeek热度丝毫不减。而也有部分AI圈名人发声力挺DeepSeek,如Meta首席科学家杨立昆、Hugging Face CEO Clem Delangue等。意大利数据保护机构也采取了类似措施,他们认为DeepSeek对意大利数百万人数据造成风险,DeepSeek需要在20天时间里作出回应。
DeepSeek遭遇全球“猎巫”!微软、OpenAI拔网线,已在部分国家被下架
看
690
回复
评论
点赞
点赞
编组 21备份 2
分享
举报
tiger20250101
tiger20250101
·
01-26
看股价,不要看人吹,要是英伟达股价砍一半,我就信你说的
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
就在这当口,全球复现DeepSeek的一波狂潮也来了。更令人兴奋的是,成本不到30美金,就可以亲眼见证「啊哈」时刻。7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队,只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS类技术。随后,生成长度开始再次增加,此时出现了自我反思机制。
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
看
1,347
回复
2
点赞
7
编组 21备份 2
分享
举报
加载更多
暂无关注
热议股票
{"i18n":{"language":"zh_CN"},"isCurrentUser":false,"userPageInfo":{"id":"3478494521127319","uuid":"3478494521127319","gmtCreate":1515400502395,"gmtModify":1737531185070,"name":"tiger20250101","pinyin":"tiger20250101","introduction":"","introductionEn":null,"signature":"","avatar":"https://static.laohu8.com/default-avatar.jpg","hat":null,"hatId":null,"hatName":null,"vip":1,"status":2,"fanSize":0,"headSize":4,"tweetSize":6,"questionSize":0,"limitLevel":900,"accountStatus":2,"level":{"id":0,"name":"","nameTw":"","represent":"","factor":"","iconColor":"","bgColor":""},"themeCounts":0,"badgeCounts":0,"badges":[],"moderator":false,"superModerator":false,"manageSymbols":null,"badgeLevel":null,"boolIsFan":false,"boolIsHead":false,"favoriteSize":0,"symbols":null,"coverImage":null,"realNameVerified":null,"userBadges":[{"badgeId":"e50ce593bb40487ebfb542ca54f6a561-4","templateUuid":"e50ce593bb40487ebfb542ca54f6a561","name":"明星虎友","description":"加入老虎社区2000天","bigImgUrl":"https://static.tigerbbs.com/dddf24b906c7011de2617d4fb3f76987","smallImgUrl":"https://static.tigerbbs.com/53d58ad32c97254c6f74db8b97e6ec49","grayImgUrl":"https://static.tigerbbs.com/6304700d92ad91c7a33e2e92ec32ecc1","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2025.01.19","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1001}],"userBadgeCount":1,"currentWearingBadge":null,"individualDisplayBadges":null,"crmLevel":1,"crmLevelSwitch":0,"location":"山东","starInvestorFollowerNum":0,"starInvestorFlag":false,"starInvestorOrderShareNum":0,"subscribeStarInvestorNum":2,"ror":null,"winRationPercentage":null,"showRor":false,"investmentPhilosophy":null,"starInvestorSubscribeFlag":false},"page":1,"watchlist":null,"tweetList":[{"id":420488844267992,"gmtCreate":1743689533381,"gmtModify":1743689535051,"author":{"id":"3478494521127319","authorId":"3478494521127319","name":"tiger20250101","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3478494521127319","idStr":"3478494521127319"},"themes":[],"htmlText":"可以豁免,毕竟组装厂这种货川普是不要的","listText":"可以豁免,毕竟组装厂这种货川普是不要的","text":"可以豁免,毕竟组装厂这种货川普是不要的","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/420488844267992","isVote":1,"tweetType":1,"viewCount":642,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":404104863375672,"gmtCreate":1739683660723,"gmtModify":1739683663075,"author":{"id":"3478494521127319","authorId":"3478494521127319","name":"tiger20250101","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3478494521127319","idStr":"3478494521127319"},"themes":[],"htmlText":"俩普通员工是谁?先开除掉…特斯拉没了马斯克不就是一平庸企业么?","listText":"俩普通员工是谁?先开除掉…特斯拉没了马斯克不就是一平庸企业么?","text":"俩普通员工是谁?先开除掉…特斯拉没了马斯克不就是一平庸企业么?","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":3,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/404104863375672","repostId":"1193551673","repostType":2,"repost":{"id":"1193551673","kind":"news","weMediaInfo":{"introduction":"为用户提供金融资讯、行情、数据,旨在帮助投资者理解世界,做投资决策。","home_visible":1,"media_name":"老虎资讯综合","id":"102","head_image":"https://static.tigerbbs.com/8274c5b9d4c2852bfb1c4d6ce16c68ba"},"pubTimestamp":1739681582,"share":"https://www.laohu8.com/m/news/1193551673?lang=&edition=full","pubTime":"2025-02-16 12:53","market":"us","language":"zh","title":"特斯拉内部担心马斯克涉政伤害公司,有高管暗示“他该辞职”","url":"https://stock-news.laohu8.com/highlight/detail?id=1193551673","media":"老虎资讯综合","summary":"认为他正在损害公司和可持续发展使命。","content":"<html><head></head><body><p>据华盛顿邮报,一份内部录音显示,特斯拉某部门最近举行的员工会议上,特斯拉员工和高级管理人员公开表达了对马斯克的担忧,认为他正在损害公司和可持续发展使命。</p><p>两名特斯拉员工称,公司上下对马斯克的不满情绪日益增加。一些员工认为,马斯克为特朗普政府效力使得他对特斯拉的关注减少。此外,由于特朗普是一个争议性人物,公司内部越发担心马斯克与他建立紧密关系,认为这已经损害了公司在部分消费者中的品牌形象。</p><p>一名员工表示,一些高级管理人员在员工会议中暗示,如果马斯克辞职,公司的情况可能会更好。</p><p></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/bca716f299175da758f4e2713c91ac24\" tg-width=\"560\" tg-height=\"240\"/></p><p></p></body></html>","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>特斯拉内部担心马斯克涉政伤害公司,有高管暗示“他该辞职”</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n特斯拉内部担心马斯克涉政伤害公司,有高管暗示“他该辞职”\n</h2>\n\n<h4 class=\"meta\">\n\n\n<a class=\"head\" href=\"https://laohu8.com/wemedia/102\">\n\n\n<div class=\"h-thumb\" style=\"background-image:url(https://static.tigerbbs.com/8274c5b9d4c2852bfb1c4d6ce16c68ba);background-size:cover;\"></div>\n\n<div class=\"h-content\">\n<p class=\"h-name\">老虎资讯综合 </p>\n<p class=\"h-time\">2025-02-16 12:53</p>\n</div>\n\n</a>\n\n\n</h4>\n\n</header>\n<article>\n<html><head></head><body><p>据华盛顿邮报,一份内部录音显示,特斯拉某部门最近举行的员工会议上,特斯拉员工和高级管理人员公开表达了对马斯克的担忧,认为他正在损害公司和可持续发展使命。</p><p>两名特斯拉员工称,公司上下对马斯克的不满情绪日益增加。一些员工认为,马斯克为特朗普政府效力使得他对特斯拉的关注减少。此外,由于特朗普是一个争议性人物,公司内部越发担心马斯克与他建立紧密关系,认为这已经损害了公司在部分消费者中的品牌形象。</p><p>一名员工表示,一些高级管理人员在员工会议中暗示,如果马斯克辞职,公司的情况可能会更好。</p><p></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/bca716f299175da758f4e2713c91ac24\" tg-width=\"560\" tg-height=\"240\"/></p><p></p></body></html>\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://community-static.tradeup.com/news/5c1e60517acf75b3ccdacf030d9a5ef4","relate_stocks":{"TSLA":"特斯拉"},"source_url":"","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1193551673","content_text":"据华盛顿邮报,一份内部录音显示,特斯拉某部门最近举行的员工会议上,特斯拉员工和高级管理人员公开表达了对马斯克的担忧,认为他正在损害公司和可持续发展使命。两名特斯拉员工称,公司上下对马斯克的不满情绪日益增加。一些员工认为,马斯克为特朗普政府效力使得他对特斯拉的关注减少。此外,由于特朗普是一个争议性人物,公司内部越发担心马斯克与他建立紧密关系,认为这已经损害了公司在部分消费者中的品牌形象。一名员工表示,一些高级管理人员在员工会议中暗示,如果马斯克辞职,公司的情况可能会更好。","news_type":1},"isVote":1,"tweetType":1,"viewCount":552,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":399651180552720,"gmtCreate":1738593258113,"gmtModify":1738594083567,"author":{"id":"3478494521127319","authorId":"3478494521127319","name":"tiger20250101","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3478494521127319","idStr":"3478494521127319"},"themes":[],"htmlText":"不用等 deepseek 下一个版本,等 meta 等开源大厂下一个版本就行,他们采用 deepseek 的方法就 ok,再优化一下","listText":"不用等 deepseek 下一个版本,等 meta 等开源大厂下一个版本就行,他们采用 deepseek 的方法就 ok,再优化一下","text":"不用等 deepseek 下一个版本,等 meta 等开源大厂下一个版本就行,他们采用 deepseek 的方法就 ok,再优化一下","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/399651180552720","isVote":1,"tweetType":1,"viewCount":866,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":398198043984392,"gmtCreate":1738238486988,"gmtModify":1738238905297,"author":{"id":"3478494521127319","authorId":"3478494521127319","name":"tiger20250101","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3478494521127319","idStr":"3478494521127319"},"themes":[],"htmlText":"deepseek 肯定没有那么多芯片,10 亿美元对幻方来说,投入太大了","listText":"deepseek 肯定没有那么多芯片,10 亿美元对幻方来说,投入太大了","text":"deepseek 肯定没有那么多芯片,10 亿美元对幻方来说,投入太大了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/398198043984392","repostId":"1173690005","repostType":2,"repost":{"id":"1173690005","kind":"news","pubTimestamp":1738218806,"share":"https://www.laohu8.com/m/news/1173690005?lang=&edition=full","pubTime":"2025-01-30 14:33","market":"us","language":"zh","title":"DeepSeek遭遇全球“猎巫”!微软、OpenAI拔网线,已在部分国家被下架","url":"https://stock-news.laohu8.com/highlight/detail?id=1173690005","media":"智东西","summary":"硅谷阴招和脏水泼向DeepSeek!智东西1月30日报道,春节期间吸引全球关注的DeepSeek热度丝毫不减。而也有部分AI圈名人发声力挺DeepSeek,如Meta首席科学家杨立昆、Hugging Face CEO Clem Delangue等。意大利数据保护机构也采取了类似措施,他们认为DeepSeek对意大利数百万人数据造成风险,DeepSeek需要在20天时间里作出回应。","content":"<html><head></head><body><blockquote><p><strong>硅谷阴招和脏水泼向DeepSeek!</strong></p></blockquote><p>1月30日,春节期间吸引全球关注的DeepSeek热度丝毫不减。截至今天上午,DeepSeek-R1已经冲至开源平台Hugging Face最受欢迎模型榜单的<strong>第5名</strong>,离第4名Llama-3-8B的差距还在持续缩小。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f0ccac0f1fae464f3c804cf10d7d1a51\" title=\"▲Hugging Face最受欢迎模型榜单\" tg-width=\"1000\" tg-height=\"1088\"/><span>▲Hugging Face最受欢迎模型榜单</span></p><p>DeepSeek的服务器似乎也因这场爆火而承受了巨大的压力。在高峰期,与DeepSeek对话需要等待5秒到20秒不等,而联网搜索服务更是长期处于繁忙状态,基本无法使用;面向开发者和企业的DeepSeek开放平台也处于无法访问的状态。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/265a84d2fdf2f81740bff1f64ebc8c7c\" title=\"▲DeepSeek联网搜索功能和开放平台目前均无法使用\" tg-width=\"1000\" tg-height=\"1171\"/><span>▲DeepSeek联网搜索功能和开放平台目前均无法使用</span></p><p>这让人不由得联想起2022年底、2023年初,ChatGPT刚刚爆火出圈时,似乎也是同样的情景。</p><p>然而,DeepSeek也逃不过树大招风的命运,科技圈大佬对其态度已一时间分裂为多个派别,各持己见。</p><p>就在刚刚,Meta CEO马克·扎克伯格在财报电话会中首次对DeepSeek近期的爆火做出回应,他称Meta对DeepSeek并不感到担忧,反而<strong>增强了他们对开源路径的信心</strong>。</p><p>此外,扎克伯格称DeepSeek一家的成就并不能证明大算力的时代就过去了,“<strong>我持续认为大量的资本支出和基础设施建设能带来长远的战略优势</strong>”。</p><p>而微软CEO Satya Nadella在微软半年财报电话会中称,DeepSeek的产品确有创新,基本上顺应了AI成本下降的大趋势。</p><p>昨晚,Anthropic创始人兼CEO Dario Amodei发布万字长文评价DeepSeek的种种成就,并呼吁美国政府继续维持芯片管制,将H20这样的中国特供版芯片也纳入限制范围,<strong>最终打造以美国为主导的单极世界</strong>。</p><p>Amodei称,DeepSeek的模型与美国前沿模型的<strong>差距有7-10个月</strong>,实际训练价格可能也没有号称的那么低。他还不惜自曝Claude 3.5 Sonnet模型的训练成本为“数千万美元”,以佐证DeepSeek的成本优势并不显著。</p><p>而也有部分AI圈名人发声力挺DeepSeek,如Meta首席科学家杨立昆、Hugging Face CEO Clem Delangue等。广大国际网友也不断用实际行动投票,开发出大量基于R1的衍生模型,丰富开源项目。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/04caf7cb08d97d55b6915a1bad21a350\" title=\"▲杨立昆发文称DeepSeek证明了开源路径的正确性(图源:Linkedin)\" tg-width=\"1000\" tg-height=\"599\"/><span>▲杨立昆发文称DeepSeek证明了开源路径的正确性(图源:Linkedin)</span></p><p>此外,今天凌晨,OpenAI宣布他们掌握了DeepSeek使用其模型进行违规蒸馏的所谓“证据”,已停用DeepSeek的OpenAI API账号,但拒绝透露更多实质性信息;美国政府传出将对H20芯片施加限制,爱尔兰、意大利等国针对DeepSeek的数据安全问题提起质询,DeepSeek App已在意大利国内的应用市场全面下架。</p><p>一场针对DeepSeek的“猎巫行动”,似乎已在全球范围内悄然发酵......</p><p><strong><em>01.</em></strong></p><p><strong>OpenAI、微软展开联合调查,已取消API接口权限</strong></p><p>据彭博社报道,知情人士透露,近期OpenAI与微软展开了一项联合调查,针对DeepSeek去年使用OpenAI API接口的账户进行审查,并以涉嫌违反服务条款的模型蒸馏为由,取消了他们的访问权限。</p><p>OpenAI向英国《金融时报》进一步分享,他们看到了一些“蒸馏”的证据,并怀疑这一行为背后便是DeepSeek。</p><p>虽然蒸馏是AI行业的常见做法,但OpenAI在服务条款中规定,<strong>用户不得“复制”其服务,也不得使用输出内容来开发竞品。</strong></p><p>OpenAI拒绝向《金融时报》提供更多实质性的信息,而微软与DeepSeek尚未对此事作出回应。</p><p>这一消息曝光后,有不少网友发现了其中的矛盾所在。一位黑客新闻论坛上的网友称,无论此事是真还是假,都不能改变OpenAI被DeepSeek击败的事实——OpenAI拥有对其旗下模型更好的访问权限,<strong>他们理应能更容易地实现DeepSeek现有的成就。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/933f5df2184eaefe011afeabb84f2927\" title=\"\" tg-width=\"1000\" tg-height=\"100\"/></p><p>还有一位网友认为,这一事件对维持OpenAI的高估值毫无益处,即便真的坐实,投资者也会意识到,仅仅花上几百万美元,就能复刻出OpenAI耗资成千上万亿美元才能取得的成就。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/5f97075af1eab4df89dd64fe4f86702e\" title=\"\" tg-width=\"1000\" tg-height=\"170\"/></p><p><strong><em>02.</em></strong></p><p><strong>Anthropic CEO发文评价DeepSeek,希望用芯片管制打造单极世界</strong></p><p>在OpenAI CEO Sam Altman前日发推回应DeepSeek的热度后,闭关数月近期才开始重新露面的Anthropic CEO Amodei也迅速在个人博客发布了一篇长文,他的核心观点是:</p><p><strong>DeepSeek虽然取得了接近美国前沿AI模型的成就,但这并不意味着美国对中国芯片出口管制不再有必要,反而是变得愈发重要。</strong></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/0c4db74822dcdbcbf4f9d34af46e6ca2\" title=\"\" tg-width=\"1000\" tg-height=\"701\"/></p><p>为论证这一观点,Amodei先用大量篇幅讨论了AI发展的三个动因:扩展定律、技术创新和范式转变。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e202d055b61997b1e9e4f95aa3c922b5\" title=\"\" tg-width=\"1000\" tg-height=\"440\"/></p><p>他认为,AI系统的性能与训练成本成正比,新的创新和效率提升可以改变成本曲线,而 AI 领域每隔一段时间就会出现新的训练范式。DeepSeek-R1验证了大规模强化学习的潜力,是一种新的范式转变,因此也在短期内取得了巨大的成就。</p><p>至于DeepSeek-V3,Amodei称他们内部很早就已经关注到了,并提出几点他自己的论断:</p><p>1、DeepSeek-V3的创新并没有像一些报道中所称的那样,以极低成本超越美国AI公司的模型。以Claude 3.5 Sonnet为例,这款模型的训练成本为几千万美元,并且不依靠其他模型。</p><p>Sonnet的训练大致是在9个月到12个月之前进行的,而DeepSeek-V3是在去年11月-12月完成训练的,Sonnet在多项关键指标上仍然明显领先,这意味着DeepSeek实际上是以更低的价格,创造了一个美国7-10个月之前就已经训练出的模型。</p><p>2、DeepSeek-V3的成本优势并不是一个独特的突破,也没有从根本上改变大模型领域的经济帐。DeepSeek的成本下降基本符合整体趋势,下降幅度甚至低于初代GPT-4到初代Claude 3.5 Sonnet之间10倍的成本下降。</p><p>3、DeepSeek拥有至少5万块英伟达Hopper架构的芯片,包括H100、H800和H20,这些芯片的成本至少有10亿美元。因此,DeepSeek公司的总支出与美国的AI实验室并没有太大差异。</p><p>最终,Amodei呼吁美国政府应加强芯片管制。他认为目前包括H20在内的芯片都应该被纳入监管范围,虽然其训练效率较低,但在采样上的效率较高。如果美国能进一步堵上这些出口“漏洞”,阻止中国获得大量芯片,就更有可能打造出美国领先的单极世界。</p><p><strong><em>03.</em></strong></p><p><strong>多个欧洲国家就数据安全提出质询,DeepSeek在意大利惨遭下架</strong></p><p>除了来自竞争对手的指控之外,DeepSeek也已成为不少监管部门的重点关注对象。</p><p>据TechCrunch报道,爱尔兰数据保护委员会已经向DeepSeek发出信函,要求其提供有关如何处理爱尔兰公民数据的详细信息。</p><p>意大利数据保护机构也采取了类似措施,他们认为DeepSeek对意大利数百万人数据造成风险,DeepSeek需要在20天时间里作出回应。</p><p>目前,DeepSeek应用已经在意大利下架,意大利的谷歌商店和苹果App Store都已没有这款App的踪迹。</p><p>欧洲消费者组织还认为,DeepSeek在保护和限制未成年人方面的做法还不够健全,从年龄验证到未成年人数据处理都没有明确的强制执行方案。</p><p><strong><em>04.</em></strong></p><p><strong>结语:DeepSeek有望走出一条独特的发展道路</strong></p><p>DeepSeek这股神秘的东方开源力量,以多款模型的现象级爆火,将以OpenAI、Anthropic为代表的闭源模型打了个措手不及,俨然成为开闭源路径之争的牌桌上一位有力的玩家。</p><p>不过,这也将DeepSeek一时间推到了风口浪尖,收获声量与赞誉的同时,成为不少争议的焦点。在未来中美AI竞争的大背景之下,DeepSeek或将代表中国AI,走出一条独特的发展道路。</p><p>春节期间DeepSeek掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。</p></body></html>","source":"zhidxcom","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>DeepSeek遭遇全球“猎巫”!微软、OpenAI拔网线,已在部分国家被下架</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nDeepSeek遭遇全球“猎巫”!微软、OpenAI拔网线,已在部分国家被下架\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-01-30 14:33 北京时间 <a href=https://mp.weixin.qq.com/s/J6rNL5sfwVjQ_Xb7U0Hc2w><strong>智东西</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>硅谷阴招和脏水泼向DeepSeek!1月30日,春节期间吸引全球关注的DeepSeek热度丝毫不减。截至今天上午,DeepSeek-R1已经冲至开源平台Hugging Face最受欢迎模型榜单的第5名,离第4名Llama-3-8B的差距还在持续缩小。▲Hugging Face最受欢迎模型榜单DeepSeek的服务器似乎也因这场爆火而承受了巨大的压力。在高峰期,与DeepSeek对话需要等待5秒到...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/J6rNL5sfwVjQ_Xb7U0Hc2w\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/7d0312efac4d277d0a1ab515a8a0e458","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/J6rNL5sfwVjQ_Xb7U0Hc2w","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1173690005","content_text":"硅谷阴招和脏水泼向DeepSeek!1月30日,春节期间吸引全球关注的DeepSeek热度丝毫不减。截至今天上午,DeepSeek-R1已经冲至开源平台Hugging Face最受欢迎模型榜单的第5名,离第4名Llama-3-8B的差距还在持续缩小。▲Hugging Face最受欢迎模型榜单DeepSeek的服务器似乎也因这场爆火而承受了巨大的压力。在高峰期,与DeepSeek对话需要等待5秒到20秒不等,而联网搜索服务更是长期处于繁忙状态,基本无法使用;面向开发者和企业的DeepSeek开放平台也处于无法访问的状态。▲DeepSeek联网搜索功能和开放平台目前均无法使用这让人不由得联想起2022年底、2023年初,ChatGPT刚刚爆火出圈时,似乎也是同样的情景。然而,DeepSeek也逃不过树大招风的命运,科技圈大佬对其态度已一时间分裂为多个派别,各持己见。就在刚刚,Meta CEO马克·扎克伯格在财报电话会中首次对DeepSeek近期的爆火做出回应,他称Meta对DeepSeek并不感到担忧,反而增强了他们对开源路径的信心。此外,扎克伯格称DeepSeek一家的成就并不能证明大算力的时代就过去了,“我持续认为大量的资本支出和基础设施建设能带来长远的战略优势”。而微软CEO Satya Nadella在微软半年财报电话会中称,DeepSeek的产品确有创新,基本上顺应了AI成本下降的大趋势。昨晚,Anthropic创始人兼CEO Dario Amodei发布万字长文评价DeepSeek的种种成就,并呼吁美国政府继续维持芯片管制,将H20这样的中国特供版芯片也纳入限制范围,最终打造以美国为主导的单极世界。Amodei称,DeepSeek的模型与美国前沿模型的差距有7-10个月,实际训练价格可能也没有号称的那么低。他还不惜自曝Claude 3.5 Sonnet模型的训练成本为“数千万美元”,以佐证DeepSeek的成本优势并不显著。而也有部分AI圈名人发声力挺DeepSeek,如Meta首席科学家杨立昆、Hugging Face CEO Clem Delangue等。广大国际网友也不断用实际行动投票,开发出大量基于R1的衍生模型,丰富开源项目。▲杨立昆发文称DeepSeek证明了开源路径的正确性(图源:Linkedin)此外,今天凌晨,OpenAI宣布他们掌握了DeepSeek使用其模型进行违规蒸馏的所谓“证据”,已停用DeepSeek的OpenAI API账号,但拒绝透露更多实质性信息;美国政府传出将对H20芯片施加限制,爱尔兰、意大利等国针对DeepSeek的数据安全问题提起质询,DeepSeek App已在意大利国内的应用市场全面下架。一场针对DeepSeek的“猎巫行动”,似乎已在全球范围内悄然发酵......01.OpenAI、微软展开联合调查,已取消API接口权限据彭博社报道,知情人士透露,近期OpenAI与微软展开了一项联合调查,针对DeepSeek去年使用OpenAI API接口的账户进行审查,并以涉嫌违反服务条款的模型蒸馏为由,取消了他们的访问权限。OpenAI向英国《金融时报》进一步分享,他们看到了一些“蒸馏”的证据,并怀疑这一行为背后便是DeepSeek。虽然蒸馏是AI行业的常见做法,但OpenAI在服务条款中规定,用户不得“复制”其服务,也不得使用输出内容来开发竞品。OpenAI拒绝向《金融时报》提供更多实质性的信息,而微软与DeepSeek尚未对此事作出回应。这一消息曝光后,有不少网友发现了其中的矛盾所在。一位黑客新闻论坛上的网友称,无论此事是真还是假,都不能改变OpenAI被DeepSeek击败的事实——OpenAI拥有对其旗下模型更好的访问权限,他们理应能更容易地实现DeepSeek现有的成就。还有一位网友认为,这一事件对维持OpenAI的高估值毫无益处,即便真的坐实,投资者也会意识到,仅仅花上几百万美元,就能复刻出OpenAI耗资成千上万亿美元才能取得的成就。02.Anthropic CEO发文评价DeepSeek,希望用芯片管制打造单极世界在OpenAI CEO Sam Altman前日发推回应DeepSeek的热度后,闭关数月近期才开始重新露面的Anthropic CEO Amodei也迅速在个人博客发布了一篇长文,他的核心观点是:DeepSeek虽然取得了接近美国前沿AI模型的成就,但这并不意味着美国对中国芯片出口管制不再有必要,反而是变得愈发重要。为论证这一观点,Amodei先用大量篇幅讨论了AI发展的三个动因:扩展定律、技术创新和范式转变。他认为,AI系统的性能与训练成本成正比,新的创新和效率提升可以改变成本曲线,而 AI 领域每隔一段时间就会出现新的训练范式。DeepSeek-R1验证了大规模强化学习的潜力,是一种新的范式转变,因此也在短期内取得了巨大的成就。至于DeepSeek-V3,Amodei称他们内部很早就已经关注到了,并提出几点他自己的论断:1、DeepSeek-V3的创新并没有像一些报道中所称的那样,以极低成本超越美国AI公司的模型。以Claude 3.5 Sonnet为例,这款模型的训练成本为几千万美元,并且不依靠其他模型。Sonnet的训练大致是在9个月到12个月之前进行的,而DeepSeek-V3是在去年11月-12月完成训练的,Sonnet在多项关键指标上仍然明显领先,这意味着DeepSeek实际上是以更低的价格,创造了一个美国7-10个月之前就已经训练出的模型。2、DeepSeek-V3的成本优势并不是一个独特的突破,也没有从根本上改变大模型领域的经济帐。DeepSeek的成本下降基本符合整体趋势,下降幅度甚至低于初代GPT-4到初代Claude 3.5 Sonnet之间10倍的成本下降。3、DeepSeek拥有至少5万块英伟达Hopper架构的芯片,包括H100、H800和H20,这些芯片的成本至少有10亿美元。因此,DeepSeek公司的总支出与美国的AI实验室并没有太大差异。最终,Amodei呼吁美国政府应加强芯片管制。他认为目前包括H20在内的芯片都应该被纳入监管范围,虽然其训练效率较低,但在采样上的效率较高。如果美国能进一步堵上这些出口“漏洞”,阻止中国获得大量芯片,就更有可能打造出美国领先的单极世界。03.多个欧洲国家就数据安全提出质询,DeepSeek在意大利惨遭下架除了来自竞争对手的指控之外,DeepSeek也已成为不少监管部门的重点关注对象。据TechCrunch报道,爱尔兰数据保护委员会已经向DeepSeek发出信函,要求其提供有关如何处理爱尔兰公民数据的详细信息。意大利数据保护机构也采取了类似措施,他们认为DeepSeek对意大利数百万人数据造成风险,DeepSeek需要在20天时间里作出回应。目前,DeepSeek应用已经在意大利下架,意大利的谷歌商店和苹果App Store都已没有这款App的踪迹。欧洲消费者组织还认为,DeepSeek在保护和限制未成年人方面的做法还不够健全,从年龄验证到未成年人数据处理都没有明确的强制执行方案。04.结语:DeepSeek有望走出一条独特的发展道路DeepSeek这股神秘的东方开源力量,以多款模型的现象级爆火,将以OpenAI、Anthropic为代表的闭源模型打了个措手不及,俨然成为开闭源路径之争的牌桌上一位有力的玩家。不过,这也将DeepSeek一时间推到了风口浪尖,收获声量与赞誉的同时,成为不少争议的焦点。在未来中美AI竞争的大背景之下,DeepSeek或将代表中国AI,走出一条独特的发展道路。春节期间DeepSeek掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。","news_type":1},"isVote":1,"tweetType":1,"viewCount":690,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":396708645310592,"gmtCreate":1737875053286,"gmtModify":1737876013477,"author":{"id":"3478494521127319","authorId":"3478494521127319","name":"tiger20250101","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3478494521127319","idStr":"3478494521127319"},"themes":[],"htmlText":"看股价,不要看人吹,要是英伟达股价砍一半,我就信你说的","listText":"看股价,不要看人吹,要是英伟达股价砍一半,我就信你说的","text":"看股价,不要看人吹,要是英伟达股价砍一半,我就信你说的","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":7,"commentSize":2,"repostSize":0,"link":"https://laohu8.com/post/396708645310592","repostId":"1161961252","repostType":2,"repost":{"id":"1161961252","kind":"news","pubTimestamp":1737873715,"share":"https://www.laohu8.com/m/news/1161961252?lang=&edition=full","pubTime":"2025-01-26 14:41","market":"hk","language":"zh","title":"全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻","url":"https://stock-news.laohu8.com/highlight/detail?id=1161961252","media":"新智元","summary":"就在这当口,全球复现DeepSeek的一波狂潮也来了。更令人兴奋的是,成本不到30美金,就可以亲眼见证「啊哈」时刻。7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队,只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS类技术。随后,生成长度开始再次增加,此时出现了自我反思机制。","content":"<html><head></head><body><p>这些天,硅谷彻底处于中国公司带来的大地震余波中。</p><p>全美都在恐慌:是否全球人工智能的中心已经转移到了中国?</p><p>就在这当口,全球复现DeepSeek的一波狂潮也来了。</p><p>诚如LeCun所言:「这一次,正是开源对闭源的胜利!」</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/96443f59328eead1fb03ccf0f6e8b4a7\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"519\"/></p><blockquote><p>在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。</p><p>大模型比拼的不再是动辄千万亿美元的算力战。</p><p>OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。</p></blockquote><p>种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。</p><p>从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。</p><h2 id=\"id_1782456954\">30美金,就能看到「啊哈」时刻</h2><p>来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。</p><p>他们表示,结果相当出色!</p><p>实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。</p><p>更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证「啊哈」时刻。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/9e5c66f649972cc1dcc1b64ac9e2312a\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"468\"/></p><p>这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。</p><p>然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。</p><p>模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。</p><p>在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7fdc1973cccfff685657e93776b421a6\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"645\"/></p><p>在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四种参数规模)。</p><p>结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。</p><p>他们认为,在这个过程,基础模型的是性能的关键。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/b5bf9a119224a98c43e0746453632356\" alt=\"\" title=\"\" tg-width=\"1024\" tg-height=\"872\"/></p><p>他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/9f1a78e6cf55328c051693886f074ca0\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"352\"/></p><p>这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究</p><p>基础模型和指令模型两者区别:</p><ul style=\"list-style-type: disc;\"><li><p>指令模型运行速度快,但最终表现与基础模型相当</p></li><li><p>指令输出的模型更具结构性和可读性</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f32389410d6e5ede00b75380edf87e07\" alt=\"\" title=\"\" tg-width=\"1024\" tg-height=\"891\"/></p><p>此外,他们还发现,具体的RL算法并不重要。PPO、GRPO、PRIME这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/617d02e3d20394695f5f569d5f74c0d8\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"1128\"/></p><p>而且,模型在推理行为中非常依赖于具体的任务:</p><ul style=\"list-style-type: disc;\"><li><p>对于Countdow任务,模型学习进行搜索和自我验证</p></li><li><p>对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/96b4239d735ae442de73323b5bd4c965\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"643\"/></p><p>苹果机器学习科学家Yizhe Zhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3f01a77c2fff63fd05ba3d19af0bfeab\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"212\"/></p><h2 id=\"id_3291092331\">7B模型复刻,结果令人惊讶</h2><p>港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。</p><p>结果令人惊喜——模型在复杂的数学推理上取得了十分强劲结果。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/51085fb73be2a72ee23054c18e6df557\" alt=\"\" title=\"\" tg-width=\"870\" tg-height=\"185\"/></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/17a612e8c7859f8429ee06ebe37234bb\" alt=\"项目地址:https://github.com/hkust-nlp/simpleRL-reason\" title=\"项目地址:https://github.com/hkust-nlp/simpleRL-reason\" tg-width=\"1080\" tg-height=\"492\"/><span>项目地址:https://github.com/hkust-nlp/simpleRL-reason</span></p><p>他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。</p><p>整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。</p><p>最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。</p><p>这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/fc28abafaf1b99ce393cf71fc2cfb483\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"613\"/></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/00ddd59c6d8b6ab3b8d2cf89524b23c4\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"553\"/></p><p>其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。</p><p>Qwen2.5-7B-SimpleRL则首先通过Long CoT监督微调(SFT)作为冷启动,然后再进行强化学习。</p><p>在这两种方法中,团队都只使用了相同的8K MATH样本,仅此而已。</p><p>大概在第44步的时候,「啊哈时刻」出现了!模型的响应中,出现了自我反思。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f3aa0b8e2d94bdc891f49c30a47aa475\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"438\"/></p><p>并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3320ec58f4e229808d3520653e70da3d\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"608\"/></p><p>在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。</p><p>与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS(蒙特卡洛树搜索)类技术。</p><p>他们使用的是PPO算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:</p><ul style=\"list-style-type: disc;\"><li><p>如果输出以指定格式提供最终答案且正确,获得+1的奖励</p></li><li><p>如果输出提供最终答案但不正确,奖励设为-0.5</p></li><li><p>如果输出未能提供最终答案,奖励设为-1</p></li></ul><p>该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。</p><h3 id=\"id_1461976375\" style=\"text-align: center;\">第一部分:SimpleRL-Zero(从头开始的强化学习)</h3><p>接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。</p><h4 id=\"id_606216327\">训练过程动态分析</h4><p>如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。</p><p>经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。</p><p>输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。</p><p>随后,生成长度开始再次增加,此时出现了自我反思机制。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c617c450f7e378da91201c2612d6b7dc\" alt=\"训练奖励和输出长度\" title=\"训练奖励和输出长度\" tg-width=\"1076\" tg-height=\"432\"/><span>训练奖励和输出长度</span></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/59ef982da18a27da8c6263d647691fa7\" alt=\"基准测试准确率(pass@1)和输出长度\" title=\"基准测试准确率(pass@1)和输出长度\" tg-width=\"1080\" tg-height=\"924\"/><span>基准测试准确率(pass@1)和输出长度</span></p><h4 id=\"id_224279804\">自我反思机制的涌现</h4><p>在训练到第 40 步左右时,研究者观察到:模型开始形成自我反思模式,这正是DeepSeek-R1论文中所描述的「aha moment」(顿悟时刻)。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/60580dff773b0a70b356c7267119e819\" alt=\"\" title=\"\" tg-width=\"1054\" tg-height=\"423\"/></p><h3 id=\"id_2889548553\" style=\"text-align: center;\">第二部分:SimpleRL(基于模仿预热的强化学习)</h3><p>如前所述,研究者在进行强化学习之前,先进行了long CoT SFT预热,使用了8,000个从QwQ-32B-Preview中提取的MATH示例响应作为SFT数据集。</p><p>这种冷启动的潜在优势在于:模型在开始强化学习时已具备long CoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c761a6c0f0b865f5c1645cc06ad9869e\" alt=\"\" title=\"\" tg-width=\"1053\" tg-height=\"445\"/></p><p>与RL训练前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。</p><p>此外,Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME,还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。</p><h3 id=\"id_1405061093\">训练过程分析</h3><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/7ca73d0446fd6af825ac840bba4c7b14\" alt=\"训练奖励和输出长度\" title=\"训练奖励和输出长度\" tg-width=\"1060\" tg-height=\"467\"/><span>训练奖励和输出长度</span></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/07444422d9115a8382ed0f8843badb5f\" alt=\"基准测试准确率(pass@1)和输出长度\" title=\"基准测试准确率(pass@1)和输出长度\" tg-width=\"1080\" tg-height=\"638\"/><span>基准测试准确率(pass@1)和输出长度</span></p><p>Qwen2.5-SimpleRL的训练动态表现与Qwen2.5-SimpleRL-Zero相似。</p><p>有趣的是,尽管研究者先进行了long CoT SFT,但在强化学习初期仍然观察到输出长度减少的现象。</p><p>他们推测,这可能是因为从QwQ提取的推理模式不适合小型策略模型,或超出了其能力范围。</p><p>因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。</p><p>最后,研究者用达芬奇的一句话,对这项研究做了总结——</p><p>简约,便是最终极的精致。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/0031e63d9296afb7d700bb6315dbce70\" alt=\"图片\" title=\"图片\" tg-width=\"437\" tg-height=\"72\"/><span>图片</span></p><h2 id=\"id_2367102810\">完全开源复刻,HuggingFace下场了</h2><p>甚至,就连全球最大开源平台HuggingFace团队,今天官宣复刻DeepSeek R1所有pipeline。</p><p>复刻完成后,所有的训练数据、训练脚本等等,将全部开源。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8b6a0735cb87c3f66a56724b33c3f08c\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"436\"/></p><p>这个项目叫做Open R1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/883546a6427f0ae894da543e70c593aa\" alt=\"项目地址:https://github.com/huggingface/open-r1\" title=\"项目地址:https://github.com/huggingface/open-r1\" tg-width=\"1080\" tg-height=\"391\"/><span>项目地址:https://github.com/huggingface/open-r1</span></p><p>研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。</p><ul style=\"list-style-type: disc;\"><li><p><strong>步骤 1:</strong>通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。</p></li><li><p><strong>步骤 2:</strong>复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。</p></li><li><p><strong>步骤 3:</strong>展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/0b5e37647b6df05c2e00fdcae31c20a1\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"1238\"/></p><h2 id=\"id_1672370884\">从斯坦福到MIT,R1成为首选</h2><p>一个副业项目,让全世界科技大厂为之惶恐。</p><p>DeepSeek这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在APP Store「效率」应用榜单中挤进前三。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c26a66723d3b3a6b69f68a1478db0112\" alt=\"\" title=\"\" tg-width=\"966\" tg-height=\"1200\"/></p><p>在Hugging Face中,R1下载量直接登顶,另外3个模型也霸占着热榜。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/a17a15963d44d09684758a53d9f16d6e\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"1080\"/></p><p>a16z合伙人Anjney Midha称,一夜之间,从斯坦福到MIT,DeepSeek R1已经成为美国顶尖高校研究人员「首选模型」。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/95d7a12d8352525e938ddde62a68ba77\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"237\"/></p><p>还有研究人员表示,DeepSeek基本上取代了我用ChatGPT的需求。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/aef5ecd49dffdc200d6f1bd7a0647528\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"169\"/></p><p>中国AI,这一次真的震撼了世界。</p></body></html>","source":"lsy1569730104218","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-01-26 14:41 北京时间 <a href=https://mp.weixin.qq.com/s/o41vPh9eJCVjCRUE4u5npA><strong>新智元</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>这些天,硅谷彻底处于中国公司带来的大地震余波中。全美都在恐慌:是否全球人工智能的中心已经转移到了中国?就在这当口,全球复现DeepSeek的一波狂潮也来了。诚如LeCun所言:「这一次,正是开源对闭源的胜利!」在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。大模型比拼的不再是动辄千万亿美元的算力战。OpenAI、Meta、谷歌这些大公司引以为傲的...</p>\n\n<a href=\"https://mp.weixin.qq.com/s/o41vPh9eJCVjCRUE4u5npA\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://community-static.tradeup.com/news/4abae3de7bed37b48c01721c28c51931","relate_stocks":{},"source_url":"https://mp.weixin.qq.com/s/o41vPh9eJCVjCRUE4u5npA","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1161961252","content_text":"这些天,硅谷彻底处于中国公司带来的大地震余波中。全美都在恐慌:是否全球人工智能的中心已经转移到了中国?就在这当口,全球复现DeepSeek的一波狂潮也来了。诚如LeCun所言:「这一次,正是开源对闭源的胜利!」在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。大模型比拼的不再是动辄千万亿美元的算力战。OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。30美金,就能看到「啊哈」时刻来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。他们表示,结果相当出色!实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证「啊哈」时刻。这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四种参数规模)。结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。他们认为,在这个过程,基础模型的是性能的关键。他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策。这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究基础模型和指令模型两者区别:指令模型运行速度快,但最终表现与基础模型相当指令输出的模型更具结构性和可读性此外,他们还发现,具体的RL算法并不重要。PPO、GRPO、PRIME这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。而且,模型在推理行为中非常依赖于具体的任务:对于Countdow任务,模型学习进行搜索和自我验证对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决苹果机器学习科学家Yizhe Zhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。结果令人惊喜——模型在复杂的数学推理上取得了十分强劲结果。项目地址:https://github.com/hkust-nlp/simpleRL-reason他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。Qwen2.5-7B-SimpleRL则首先通过Long CoT监督微调(SFT)作为冷启动,然后再进行强化学习。在这两种方法中,团队都只使用了相同的8K MATH样本,仅此而已。大概在第44步的时候,「啊哈时刻」出现了!模型的响应中,出现了自我反思。并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS(蒙特卡洛树搜索)类技术。他们使用的是PPO算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:如果输出以指定格式提供最终答案且正确,获得+1的奖励如果输出提供最终答案但不正确,奖励设为-0.5如果输出未能提供最终答案,奖励设为-1该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。第一部分:SimpleRL-Zero(从头开始的强化学习)接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。训练过程动态分析如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。随后,生成长度开始再次增加,此时出现了自我反思机制。训练奖励和输出长度基准测试准确率(pass@1)和输出长度自我反思机制的涌现在训练到第 40 步左右时,研究者观察到:模型开始形成自我反思模式,这正是DeepSeek-R1论文中所描述的「aha moment」(顿悟时刻)。第二部分:SimpleRL(基于模仿预热的强化学习)如前所述,研究者在进行强化学习之前,先进行了long CoT SFT预热,使用了8,000个从QwQ-32B-Preview中提取的MATH示例响应作为SFT数据集。这种冷启动的潜在优势在于:模型在开始强化学习时已具备long CoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。与RL训练前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。此外,Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME,还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。训练过程分析训练奖励和输出长度基准测试准确率(pass@1)和输出长度Qwen2.5-SimpleRL的训练动态表现与Qwen2.5-SimpleRL-Zero相似。有趣的是,尽管研究者先进行了long CoT SFT,但在强化学习初期仍然观察到输出长度减少的现象。他们推测,这可能是因为从QwQ提取的推理模式不适合小型策略模型,或超出了其能力范围。因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。最后,研究者用达芬奇的一句话,对这项研究做了总结——简约,便是最终极的精致。图片完全开源复刻,HuggingFace下场了甚至,就连全球最大开源平台HuggingFace团队,今天官宣复刻DeepSeek R1所有pipeline。复刻完成后,所有的训练数据、训练脚本等等,将全部开源。这个项目叫做Open R1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。项目地址:https://github.com/huggingface/open-r1研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。从斯坦福到MIT,R1成为首选一个副业项目,让全世界科技大厂为之惶恐。DeepSeek这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在APP Store「效率」应用榜单中挤进前三。在Hugging Face中,R1下载量直接登顶,另外3个模型也霸占着热榜。a16z合伙人Anjney Midha称,一夜之间,从斯坦福到MIT,DeepSeek R1已经成为美国顶尖高校研究人员「首选模型」。还有研究人员表示,DeepSeek基本上取代了我用ChatGPT的需求。中国AI,这一次真的震撼了世界。","news_type":1},"isVote":1,"tweetType":1,"viewCount":1347,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"4091593421306780","authorId":"4091593421306780","name":"wuxxx","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":2,"crmLevelSwitch":0,"authorIdStr":"4091593421306780","idStr":"4091593421306780"},"content":"deepseek也是基于nv的gpu训练出来的呀😂,而且开源模型没办法形成有效的护城河,不出一个月将会有大量的公司从这次事件中吸取经验","text":"deepseek也是基于nv的gpu训练出来的呀😂,而且开源模型没办法形成有效的护城河,不出一个月将会有大量的公司从这次事件中吸取经验","html":"deepseek也是基于nv的gpu训练出来的呀😂,而且开源模型没办法形成有效的护城河,不出一个月将会有大量的公司从这次事件中吸取经验"}],"imageCount":0,"langContent":"CN","totalScore":0}],"defaultTab":"following","isTTM":false}