过去五年人工智能在不_老虎社区_美港股上老虎 - 老虎社区

过去五年人工智能在不同基准测试上的表现，近一年来属于肉眼可见的飞跃。横轴是时间线，纵轴是准确率，即AI在测试中正确率。不同颜色的线代表不同测试，简单说几个有代表性的：
1.TriviaQA：可以理解为常识数据集，测试AI的知识储备和基础推理，对AI没难度，几乎满分
2.MMLU ：综合性的语言理解测试，包含多个学科的题目，如数学、物理、历史等，几乎满分
3.Competition math：竞赛数学，类似咱们这的奥数吧，提升最明显，4年前是5分学渣水平，现在是……90以上
4.AIME：美国数学邀请赛，比上面那个更难一点，不到90分
5.GPQA：测试理解复杂概念、应用科学知识和进行逻辑，这一年发展也很快，接近80分
6.SWE tasks 软件工程任务，测试AI的软件开发能力，比如编写代码、调试程序啥的，几乎是从0分起步，目前70分段位
7.最终boss是人类的终极考试（Humanity's last exam）……这个怎么说呢，从名字就看出来这是人类挽尊题，如果到满分基本就是AGI雏形初现时刻，目前20+段位。
大趋势都看得出来：
1.所有线条均呈现上升趋势，AI在各个领域的能力都在快速提高，几十年前的“图灵测试”已经没有意义了
2.最炸裂的其实是高难度测试准确率也在快速提推升，要知道推理模型的推出还不到一年呢，后面会发生啥？

彻底闹掰！“特马对撕”之战，你站哪一边？

特朗普与马斯克之间争执升级，令特斯拉引领美股下跌，美股大盘收跌，纳指一度较日高跌近2%。【特斯拉股价暴跌14%，大家觉得跌到位了吗？“撕逼”之战，你站哪一边？】

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

2

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":402436040229136,"tweetId":"402436040229136","gmtCreate":1739269090952,"gmtModify":1739270701874,"author":{"id":3574501498693116,"idStr":"3574501498693116","authorId":3574501498693116,"authorIdStr":"3574501498693116","name":"午夜尼奥","avatar":"https://static.tigerbbs.com/115e45efb23610030051283fc3a42127","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":3,"crmLevelSwitch":0,"currentWearingBadge":{"badgeId":"a97bce155cb14045be40c3fe246e8d20-1","templateUuid":"a97bce155cb14045be40c3fe246e8d20","name":"新晋创作者","description":"首次获得精华帖的创作者","bigImgUrl":"https://static.tigerbbs.com/4ce9180a952c61a51c39f70d533b81a7","smallImgUrl":"https://static.tigerbbs.com/f98cf16cf4b858114f7ab9a779f9e6f1","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2025.03.24","individualDisplayEnabled":0},"individualDisplayBadges":[],"fanSize":51,"starInvestorFlag":false},"themes":[{"themeId":"4bb554a7646e412681ff58ecb4ceeb48","categoryId":"d316d8bd4a714fab9ea15fd7157c45e7","name":"彻底闹掰！“特马对撕”之战，你站哪一边？","type":0,"rnLink":"https://laohu8.com/RN?name=RNTheme&page=/theme/detail&rndata={\"themeId\":4bb554a7646e412681ff58ecb4ceeb48}&rnconfig={\"headerBarHidden\": true}","description":"特朗普与马斯克之间争执升级，令特斯拉引领美股下跌，美股大盘收跌，纳指一度较日高跌近2%。【特斯拉股价暴跌14%，大家觉得跌到位了吗？“撕逼”之战，你站哪一边？】","image":"https://static.tigerbbs.com/c443cc964c15586262ebde1a206a65d7"}],"images":[{"img":"https://static.tigerbbs.com/fa32bcdab255698834db6c9c7e23cba4","width":"1812","height":"822"}],"coverImages":[{"img":"https://static.tigerbbs.com/fa32bcdab255698834db6c9c7e23cba4","width":"1812","height":"822"}],"html":"<html><head></head><body>过去五年人工智能在不同基准测试上的表现，近一年来属于肉眼可见的飞跃。横轴是时间线，纵轴是准确率，即AI在测试中正确率。不同颜色的线代表不同测试，简单说几个有代表性的：\n<br>\n1.TriviaQA：可以理解为常识数据集，测试AI的知识储备和基础推理，对AI没难度，几乎满分\n<br>\n2.MMLU ：综合性的语言理解测试，包含多个学科的题目，如数学、物理、历史等，几乎满分\n<br>\n3.Competition math：竞赛数学，类似咱们这的奥数吧，提升最明显，4年前是5分学渣水平，现在是……90以上\n<br>\n4.AIME：美国数学邀请赛，比上面那个更难一点，不到90分\n<br>\n5.GPQA：测试理解复杂概念、应用科学知识和进行逻辑，这一年发展也很快，接近80分\n<br>\n6.SWE tasks 软件工程任务，测试AI的软件开发能力，比如编写代码、调试程序啥的，几乎是从0分起步，目前70分段位\n<br>\n7.最终boss是人类的终极考试（Humanity's last exam）……这个怎么说呢，从名字就看出来这是人类挽尊题，如果到满分基本就是AGI雏形初现时刻，目前20+段位。\n<br>\n大趋势都看得出来：\n<br>\n1.所有线条均呈现上升趋势，AI在各个领域的能力都在快速提高，几十年前的“图灵测试”已经没有意义了\n<br>\n2.最炸裂的其实是高难度测试准确率也在快速提推升，要知道推理模型的推出还不到一年呢，后面会发生啥？<img src=\"https://static.tigerbbs.com/fa32bcdab255698834db6c9c7e23cba4\" tg-width=\"1812\" tg-height=\"822\"></body></html>","htmlText":"<html><head></head><body>过去五年人工智能在不同基准测试上的表现，近一年来属于肉眼可见的飞跃。横轴是时间线，纵轴是准确率，即AI在测试中正确率。不同颜色的线代表不同测试，简单说几个有代表性的：\n<br>\n1.TriviaQA：可以理解为常识数据集，测试AI的知识储备和基础推理，对AI没难度，几乎满分\n<br>\n2.MMLU ：综合性的语言理解测试，包含多个学科的题目，如数学、物理、历史等，几乎满分\n<br>\n3.Competition math：竞赛数学，类似咱们这的奥数吧，提升最明显，4年前是5分学渣水平，现在是……90以上\n<br>\n4.AIME：美国数学邀请赛，比上面那个更难一点，不到90分\n<br>\n5.GPQA：测试理解复杂概念、应用科学知识和进行逻辑，这一年发展也很快，接近80分\n<br>\n6.SWE tasks 软件工程任务，测试AI的软件开发能力，比如编写代码、调试程序啥的，几乎是从0分起步，目前70分段位\n<br>\n7.最终boss是人类的终极考试（Humanity's last exam）……这个怎么说呢，从名字就看出来这是人类挽尊题，如果到满分基本就是AGI雏形初现时刻，目前20+段位。\n<br>\n大趋势都看得出来：\n<br>\n1.所有线条均呈现上升趋势，AI在各个领域的能力都在快速提高，几十年前的“图灵测试”已经没有意义了\n<br>\n2.最炸裂的其实是高难度测试准确率也在快速提推升，要知道推理模型的推出还不到一年呢，后面会发生啥？<img src=\"https://static.tigerbbs.com/fa32bcdab255698834db6c9c7e23cba4\" tg-width=\"1812\" tg-height=\"822\"></body></html>","text":"过去五年人工智能在不同基准测试上的表现，近一年来属于肉眼可见的飞跃。横轴是时间线，纵轴是准确率，即AI在测试中正确率。不同颜色的线代表不同测试，简单说几个有代表性的： 1.TriviaQA：可以理解为常识数据集，测试AI的知识储备和基础推理，对AI没难度，几乎满分 2.MMLU ：综合性的语言理解测试，包含多个学科的题目，如数学、物理、历史等，几乎满分 3.Competition math：竞赛数学，类似咱们这的奥数吧，提升最明显，4年前是5分学渣水平，现在是……90以上 4.AIME：美国数学邀请赛，比上面那个更难一点，不到90分 5.GPQA：测试理解复杂概念、应用科学知识和进行逻辑，这一年发展也很快，接近80分 6.SWE tasks 软件工程任务，测试AI的软件开发能力，比如编写代码、调试程序啥的，几乎是从0分起步，目前70分段位 7.最终boss是人类的终极考试（Humanity's last exam）……这个怎么说呢，从名字就看出来这是人类挽尊题，如果到满分基本就是AGI雏形初现时刻，目前20+段位。 大趋势都看得出来： 1.所有线条均呈现上升趋势，AI在各个领域的能力都在快速提高，几十年前的“图灵测试”已经没有意义了 2.最炸裂的其实是高难度测试准确率也在快速提推升，要知道推理模型的推出还不到一年呢，后面会发生啥？","highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/402436040229136","repostId":0,"isVote":1,"tweetType":1,"viewCount":2417,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":954,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/402436040229136"}