没有下一代了，不用小_老虎社区_美港股上老虎 - 老虎社区

寂寞的演奏家

没有下一代了，不用小心了

人类要小心了！OpenAI已全面评估AI对各行各业的工作替代

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":484093597033288,"tweetId":"484093597033288","gmtCreate":1759215704930,"gmtModify":1759215707310,"author":{"id":3495002759494258,"idStr":"3495002759494258","authorId":3495002759494258,"authorIdStr":"3495002759494258","name":"寂寞的演奏家","avatar":"https://static.tigerbbs.com/9027c93e57bb45c8170d7860486ffda7","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"currentWearingBadge":{"badgeId":"35ec162348d5460f88c959321e554969-3","templateUuid":"35ec162348d5460f88c959321e554969","name":"传说交易员","description":"证券或期货账户累计交易次数达到300次","bigImgUrl":"https://static.tigerbbs.com/656db16598a0b8f21429e10d6c1cb033","smallImgUrl":"https://static.tigerbbs.com/03f10910d4dd9234f9b5702a3342193a","grayImgUrl":"https://static.tigerbbs.com/0c767e35268feb729d50d3fa9a386c5a","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2025.03.23","exceedPercentage":"94.00%","individualDisplayEnabled":0},"individualDisplayBadges":[],"fanSize":537,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>没有下一代了，不用小心了</p></body></html>","htmlText":"<html><head></head><body><p>没有下一代了，不用小心了</p></body></html>","text":"没有下一代了，不用小心了","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/484093597033288","repostId":2571157391,"repostType":4,"repost":{"id":"2571157391","kind":"highlight","weMediaInfo":{"introduction":"追踪全球财经热点，精选影响您财富的资讯，投资理财必备神器！","home_visible":1,"media_name":"华尔街见闻","id":"1084101182","head_image":"https://static.tigerbbs.com/66809d1f5c2e43e2bdf15820c6d6897e"},"pubTimestamp":1759212738,"share":"https://www.laohu8.com/m/news/2571157391?lang=&edition=full","pubTime":"2025-09-30 14:12","market":"fut","language":"zh","title":"人类要小心了！OpenAI已全面评估AI对各行各业的工作替代","url":"https://stock-news.laohu8.com/highlight/detail?id=2571157391","media":"华尔街见闻","summary":"该研究覆盖了在美国GDP中占比较大的九个商业领域，涉及44个职业中的1300项工作任务。研究发现，AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。","content":"<html><head></head><body><blockquote><p>该研究覆盖了在美国GDP中占比较大的九个商业领域，涉及44个职业中的1300项工作任务。研究发现，AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。</p></blockquote><p>一项来自OpenAI的最新评估显示，AI在执行具有经济价值的工作任务方面正迅速追赶，甚至逼近人类专业人员的水平。</p><p>据报道，OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。</p><p>该研究覆盖了在美国国内生产总值（GDP）中占比较大的九个商业领域，涉及44个职业中的约1300项具体工作任务。结果显示，<strong>当前最顶尖的AI模型在执行许多职业任务时，其能力已与人类专业人士相当，并且这种能力的提升速度正在加快。</strong></p><p>在GDPval-v0发布后，前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中，全面地评估了GDPval的研究过程和结果。</p><h2 id=\"id_981020554\">GDPval或成衡量AI经济价值的全新标尺</h2><p>据文章介绍，GDPval基准测试涵盖了1230个专业任务，涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业，每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。</p><p>Clark指出，<strong>这份清单几乎囊括了现代经济中所有关键的知识密集型岗位，</strong>表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。</p><p>文章还表示，<strong>该基准测试的另一个优秀特性是它涉及多种回答格式，</strong>并试图处理现实世界固有的复杂性。</p><p>为了模拟真实世界工作的复杂性，GDPval的任务并非简单的文本问答，而是带有参考文件和上下文，要求AI交付的成果也多种多样，包括文档、幻灯片、图表和电子表格等。</p><p>评估结果直接量化了AI的能力边界。数据显示，Claude Opus 4.1在与人类专家的比较中，取得了47.6%的“胜利或平局”率，排名第一。紧随其后的是GPT-5-high（38.8%）和o3 high（34.1%）。</p><p>这些数据表明，AI在处理复杂的专业知识工作时，其质量已达到甚至在某些情况下超过了经验丰富的人类。</p><p><strong>Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。</strong></p><p>公开资料显示，SWE-Bench于2024年11月推出，旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。</p><p>以下是Clark的博文节选，由AI工具辅助翻译：</p><p>评估世界经济；奇点经济学；以及瑞士主权AI</p><p>作者：Jack Clark</p><p>OpenAI构建了一个评估系统，对广泛经济的意义就如同SWE-Bench对代码的意义： …GDPval是一个非常好的基准测试，具有极其重要的意义…</p><p>OpenAI构建并发布了GDPval，这是一个制作精良的基准测试，用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言，GDPval对广泛的现实世界经济影响的意义，可能相当于SWE-Bench对编程影响的意义——这是一件大事！</p><p><strong>它是什么：</strong>GDPval&#34;衡量模型在直接来自现实世界的任务上的表现，这些任务涉及各行各业经验丰富专业人士的知识工作，为模型在经济价值任务上的表现提供更清晰的画面。&#34;</p><p>该基准测试涵盖9个行业的44个职业，包括1,230个专业任务，&#34;每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核&#34;。数据集&#34;包括每个职业的30个经过全面审核的任务（完整集），以及我们开源黄金集中每个职业的5个任务&#34;。</p><p>该基准测试的另一个优秀特性是它涉及多种回答格式，并试图处理现实世界固有的复杂性。他们写道：&#34;GDPval的任务不是简单的文本提示。它们带有参考文件和上下文，预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。&#34;</p><p>&#34;为了评估模型在GDPval任务上的表现，我们依靠专家&#39;评分员&#39;——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果（不知道哪个是AI生成的，哪个是人类生成的），并提供批评和排名。评分员随后对人类和AI交付成果进行排名，并将每个AI交付成果分类为&#39;更好&#39;、&#39;同样好&#39;或&#39;不如&#39;彼此，&#34;作者写道。</p><p><strong>结果：</strong>&#34;我们发现今天最好的前沿模型已经接近行业专家产生的工作质量，&#34;作者写道。Claude Opus 4.1排名第一，与人类工作相比的总体胜利或平局率为47.6%，其次是GPT-5-high的38.8%，以及o3 high的34.1%。</p><p><strong>更快更便宜：</strong>更重要的是，&#34;我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍，成本便宜约100倍。&#34;</p><p><strong>GDPval包含哪些类型的工作？</strong></p><p>• <strong>房地产和租赁业：</strong>礼宾员；物业、房地产和社区协会经理；房地产销售代理；房地产经纪人；柜台和租赁店员。</p><p>• <strong>政府部门：</strong>娱乐工作者；合规官员；警察和侦探一线主管；行政服务经理；儿童、家庭和学校社会工作者。</p><p>•<strong> 制造业：</strong>机械工程师；工业工程师；采购员和采购代理；运输、接收和库存店员；生产和操作工人一线主管。</p><p>• <strong>专业、科学和技术服务：</strong>软件开发人员；律师；会计师和审计师；计算机和信息系统经理；项目管理专家。</p><p>• <strong>医疗保健和社会援助：</strong>注册护士；执业护士；医疗和健康服务经理；办公室和行政支持工人一线主管；医疗秘书和行政助理。</p><p>• <strong>金融和保险：</strong>客户服务代表；金融和投资分析师；财务经理；个人理财顾问；证券、商品和金融服务销售代理。</p><p>• <strong>零售贸易：</strong>药剂师；零售销售工人一线主管；总经理和运营经理；私人侦探和调查员。</p><p>• <strong>批发贸易：</strong>销售经理；订单店员；非零售销售工人一线主管；批发和制造销售代表，不包括技术和科学产品；批发和制造销售代表，技术和科学产品。</p><p>• <strong>信息业：</strong>音频和视频技术员；制片人和导演；新闻分析师、记者和新闻工作者；电影和视频编辑；编辑。</p><p><strong>为什么这很重要——AI公司正在构建系统进入经济的每一个部分：</strong>此时我希望读者想象我站在华盛顿特区中心，举着一个巨大的标牌，上面写着：AI公司正在构建基准测试，旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了！</p><p>这并不正常！</p><p>我们正在通过生态有效的基准测试，对系统在极其广泛的行为范围内进行测试，这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的&#34;生态经济生态位&#34;，我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快，它们在这些任务上将超越许多人类。然后会怎样？什么都不会发生？不！经济将发生极其奇异的变化！</p></body></html>","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>人类要小心了！OpenAI已全面评估AI对各行各业的工作替代</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n人类要小心了！OpenAI已全面评估AI对各行各业的工作替代\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-09-30 14:12 北京时间&nbsp;&nbsp;&nbsp;<a href=https://wallstreetcn.com/articles/3756519><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>该研究覆盖了在美国GDP中占比较大的九个商业领域，涉及44个职业中的1300项工作任务。研究发现，AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。一项来自OpenAI的最新评估显示，AI在执行具有经济价值的工作...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3756519\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/8e1cc193bebd7a244a3ad519d4d5e79b","relate_stocks":{"BK4588":"碎股","BK4528":"SaaS概念","BK4213":"石油与天然气的勘探与生产","BK4585":"ETF&股票定投概念","BK4023":"应用软件","GDP":"古德里奇","BK4543":"AI","BK4551":"寇图资本持仓","BK4587":"ChatGPT概念"},"source_url":"https://wallstreetcn.com/articles/3756519","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2571157391","content_text":"该研究覆盖了在美国GDP中占比较大的九个商业领域，涉及44个职业中的1300项工作任务。研究发现，AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。一项来自OpenAI的最新评估显示，AI在执行具有经济价值的工作任务方面正迅速追赶，甚至逼近人类专业人员的水平。据报道，OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。该研究覆盖了在美国国内生产总值（GDP）中占比较大的九个商业领域，涉及44个职业中的约1300项具体工作任务。结果显示，当前最顶尖的AI模型在执行许多职业任务时，其能力已与人类专业人士相当，并且这种能力的提升速度正在加快。在GDPval-v0发布后，前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中，全面地评估了GDPval的研究过程和结果。GDPval或成衡量AI经济价值的全新标尺据文章介绍，GDPval基准测试涵盖了1230个专业任务，涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业，每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。Clark指出，这份清单几乎囊括了现代经济中所有关键的知识密集型岗位，表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。文章还表示，该基准测试的另一个优秀特性是它涉及多种回答格式，并试图处理现实世界固有的复杂性。为了模拟真实世界工作的复杂性，GDPval的任务并非简单的文本问答，而是带有参考文件和上下文，要求AI交付的成果也多种多样，包括文档、幻灯片、图表和电子表格等。评估结果直接量化了AI的能力边界。数据显示，Claude Opus 4.1在与人类专家的比较中，取得了47.6%的“胜利或平局”率，排名第一。紧随其后的是GPT-5-high（38.8%）和o3 high（34.1%）。这些数据表明，AI在处理复杂的专业知识工作时，其质量已达到甚至在某些情况下超过了经验丰富的人类。Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。公开资料显示，SWE-Bench于2024年11月推出，旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。以下是Clark的博文节选，由AI工具辅助翻译：评估世界经济；奇点经济学；以及瑞士主权AI作者：Jack ClarkOpenAI构建了一个评估系统，对广泛经济的意义就如同SWE-Bench对代码的意义： …GDPval是一个非常好的基准测试，具有极其重要的意义…OpenAI构建并发布了GDPval，这是一个制作精良的基准测试，用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言，GDPval对广泛的现实世界经济影响的意义，可能相当于SWE-Bench对编程影响的意义——这是一件大事！它是什么：GDPval\"衡量模型在直接来自现实世界的任务上的表现，这些任务涉及各行各业经验丰富专业人士的知识工作，为模型在经济价值任务上的表现提供更清晰的画面。\"该基准测试涵盖9个行业的44个职业，包括1,230个专业任务，\"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核\"。数据集\"包括每个职业的30个经过全面审核的任务（完整集），以及我们开源黄金集中每个职业的5个任务\"。该基准测试的另一个优秀特性是它涉及多种回答格式，并试图处理现实世界固有的复杂性。他们写道：\"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文，预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。\"\"为了评估模型在GDPval任务上的表现，我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果（不知道哪个是AI生成的，哪个是人类生成的），并提供批评和排名。评分员随后对人类和AI交付成果进行排名，并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此，\"作者写道。结果：\"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量，\"作者写道。Claude Opus 4.1排名第一，与人类工作相比的总体胜利或平局率为47.6%，其次是GPT-5-high的38.8%，以及o3 high的34.1%。更快更便宜：更重要的是，\"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍，成本便宜约100倍。\"GDPval包含哪些类型的工作？• 房地产和租赁业：礼宾员；物业、房地产和社区协会经理；房地产销售代理；房地产经纪人；柜台和租赁店员。• 政府部门：娱乐工作者；合规官员；警察和侦探一线主管；行政服务经理；儿童、家庭和学校社会工作者。• 制造业：机械工程师；工业工程师；采购员和采购代理；运输、接收和库存店员；生产和操作工人一线主管。• 专业、科学和技术服务：软件开发人员；律师；会计师和审计师；计算机和信息系统经理；项目管理专家。• 医疗保健和社会援助：注册护士；执业护士；医疗和健康服务经理；办公室和行政支持工人一线主管；医疗秘书和行政助理。• 金融和保险：客户服务代表；金融和投资分析师；财务经理；个人理财顾问；证券、商品和金融服务销售代理。• 零售贸易：药剂师；零售销售工人一线主管；总经理和运营经理；私人侦探和调查员。• 批发贸易：销售经理；订单店员；非零售销售工人一线主管；批发和制造销售代表，不包括技术和科学产品；批发和制造销售代表，技术和科学产品。• 信息业：音频和视频技术员；制片人和导演；新闻分析师、记者和新闻工作者；电影和视频编辑；编辑。为什么这很重要——AI公司正在构建系统进入经济的每一个部分：此时我希望读者想象我站在华盛顿特区中心，举着一个巨大的标牌，上面写着：AI公司正在构建基准测试，旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了！这并不正常！我们正在通过生态有效的基准测试，对系统在极其广泛的行为范围内进行测试，这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的\"生态经济生态位\"，我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快，它们在这些任务上将超越许多人类。然后会怎样？什么都不会发生？不！经济将发生极其奇异的变化！","news_type":1,"symbols_score_info":{"GDP":1}},"isVote":1,"tweetType":1,"viewCount":237,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":23,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/484093597033288"}