寂寞的演奏家
09-30
没有下一代了,不用小心了
人类要小心了!OpenAI已全面评估AI对各行各业的工作替代
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":484093597033288,"tweetId":"484093597033288","gmtCreate":1759215704930,"gmtModify":1759215707310,"author":{"id":3495002759494258,"idStr":"3495002759494258","authorId":3495002759494258,"authorIdStr":"3495002759494258","name":"寂寞的演奏家","avatar":"https://static.tigerbbs.com/9027c93e57bb45c8170d7860486ffda7","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"currentWearingBadge":{"badgeId":"35ec162348d5460f88c959321e554969-3","templateUuid":"35ec162348d5460f88c959321e554969","name":"传说交易员","description":"证券或期货账户累计交易次数达到300次","bigImgUrl":"https://static.tigerbbs.com/656db16598a0b8f21429e10d6c1cb033","smallImgUrl":"https://static.tigerbbs.com/03f10910d4dd9234f9b5702a3342193a","grayImgUrl":"https://static.tigerbbs.com/0c767e35268feb729d50d3fa9a386c5a","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2025.03.23","exceedPercentage":"94.00%","individualDisplayEnabled":0},"individualDisplayBadges":[],"fanSize":537,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>没有下一代了,不用小心了</p></body></html>","htmlText":"<html><head></head><body><p>没有下一代了,不用小心了</p></body></html>","text":"没有下一代了,不用小心了","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/484093597033288","repostId":2571157391,"repostType":4,"repost":{"id":"2571157391","kind":"highlight","weMediaInfo":{"introduction":"追踪全球财经热点,精选影响您财富的资讯,投资理财必备神器!","home_visible":1,"media_name":"华尔街见闻","id":"1084101182","head_image":"https://static.tigerbbs.com/66809d1f5c2e43e2bdf15820c6d6897e"},"pubTimestamp":1759212738,"share":"https://www.laohu8.com/m/news/2571157391?lang=&edition=full","pubTime":"2025-09-30 14:12","market":"fut","language":"zh","title":"人类要小心了!OpenAI已全面评估AI对各行各业的工作替代","url":"https://stock-news.laohu8.com/highlight/detail?id=2571157391","media":"华尔街见闻","summary":"该研究覆盖了在美国GDP中占比较大的九个商业领域,涉及44个职业中的1300项工作任务。研究发现,AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。","content":"<html><head></head><body><blockquote><p>该研究覆盖了在美国GDP中占比较大的九个商业领域,涉及44个职业中的1300项工作任务。研究发现,AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。</p></blockquote><p>一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。</p><p>据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。</p><p>该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,<strong>当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。</strong></p><p>在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。</p><h2 id=\"id_981020554\">GDPval或成衡量AI经济价值的全新标尺</h2><p>据文章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。</p><p>Clark指出,<strong>这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,</strong>表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。</p><p>文章还表示,<strong>该基准测试的另一个优秀特性是它涉及多种回答格式,</strong>并试图处理现实世界固有的复杂性。</p><p>为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。</p><p>评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。</p><p>这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。</p><p><strong>Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。</strong></p><p>公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。</p><p>以下是Clark的博文节选,由AI工具辅助翻译:</p><p>评估世界经济;奇点经济学;以及瑞士主权AI</p><p>作者:Jack Clark</p><p>OpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…</p><p>OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!</p><p><strong>它是什么:</strong>GDPval"衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。"</p><p>该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核"。数据集"包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务"。</p><p>该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。"</p><p>"为了评估模型在GDPval任务上的表现,我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此,"作者写道。</p><p><strong>结果:</strong>"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,"作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。</p><p><strong>更快更便宜:</strong>更重要的是,"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。"</p><p><strong>GDPval包含哪些类型的工作?</strong></p><p>• <strong>房地产和租赁业:</strong>礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。</p><p>• <strong>政府部门:</strong>娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。</p><p>•<strong> 制造业:</strong>机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。</p><p>• <strong>专业、科学和技术服务:</strong>软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。</p><p>• <strong>医疗保健和社会援助:</strong>注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。</p><p>• <strong>金融和保险:</strong>客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。</p><p>• <strong>零售贸易:</strong>药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。</p><p>• <strong>批发贸易:</strong>销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。</p><p>• <strong>信息业:</strong>音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。</p><p><strong>为什么这很重要——AI公司正在构建系统进入经济的每一个部分:</strong>此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!</p><p>这并不正常!</p><p>我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的"生态经济生态位",我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!</p></body></html>","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>人类要小心了!OpenAI已全面评估AI对各行各业的工作替代</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n人类要小心了!OpenAI已全面评估AI对各行各业的工作替代\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-09-30 14:12 北京时间 <a href=https://wallstreetcn.com/articles/3756519><strong>华尔街见闻</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>该研究覆盖了在美国GDP中占比较大的九个商业领域,涉及44个职业中的1300项工作任务。研究发现,AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3756519\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/8e1cc193bebd7a244a3ad519d4d5e79b","relate_stocks":{"BK4588":"碎股","BK4528":"SaaS概念","BK4213":"石油与天然气的勘探与生产","BK4585":"ETF&股票定投概念","BK4023":"应用软件","GDP":"古德里奇","BK4543":"AI","BK4551":"寇图资本持仓","BK4587":"ChatGPT概念"},"source_url":"https://wallstreetcn.com/articles/3756519","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2571157391","content_text":"该研究覆盖了在美国GDP中占比较大的九个商业领域,涉及44个职业中的1300项工作任务。研究发现,AI模型执行职业任务的能力几乎已与人类专业人士相当。前OpenAI政策总监、Anthropic联合创始人Jack Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。GDPval或成衡量AI经济价值的全新标尺据文章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。Clark指出,这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。文章还表示,该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。以下是Clark的博文节选,由AI工具辅助翻译:评估世界经济;奇点经济学;以及瑞士主权AI作者:Jack ClarkOpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!它是什么:GDPval\"衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。\"该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,\"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核\"。数据集\"包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务\"。该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:\"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。\"\"为了评估模型在GDPval任务上的表现,我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此,\"作者写道。结果:\"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,\"作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。更快更便宜:更重要的是,\"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。\"GDPval包含哪些类型的工作?• 房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。• 政府部门:娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。• 制造业:机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。• 专业、科学和技术服务:软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。• 医疗保健和社会援助:注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。• 金融和保险:客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。• 零售贸易:药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。• 批发贸易:销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。• 信息业:音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。为什么这很重要——AI公司正在构建系统进入经济的每一个部分:此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!这并不正常!我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的\"生态经济生态位\",我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!","news_type":1,"symbols_score_info":{"GDP":1}},"isVote":1,"tweetType":1,"viewCount":237,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":23,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/484093597033288"}
精彩评论