午夜尼奥
02-11
过去五年人工智能在不同基准测试上的表现,近一年来属于肉眼可见的飞跃。横轴是时间线,纵轴是准确率,即AI在测试中正确率。不同颜色的线代表不同测试,简单说几个有代表性的:
1.TriviaQA:可以理解为常识数据集,测试AI的知识储备和基础推理,对AI没难度,几乎满分
2.MMLU :综合性的语言理解测试,包含多个学科的题目,如数学、物理、历史等,几乎满分
3.Competition math:竞赛数学,类似咱们这的奥数吧,提升最明显,4年前是5分学渣水平,现在是……90以上
4.AIME:美国数学邀请赛,比上面那个更难一点,不到90分
5.GPQA:测试理解复杂概念、应用科学知识和进行逻辑,这一年发展也很快,接近80分
6.SWE tasks 软件工程任务,测试AI的软件开发能力,比如编写代码、调试程序啥的,几乎是从0分起步,目前70分段位
7.最终boss是人类的终极考试(Humanity's last exam)……这个怎么说呢,从名字就看出来这是人类挽尊题,如果到满分基本就是AGI雏形初现时刻,目前20+段位。
大趋势都看得出来:
1.所有线条均呈现上升趋势,AI在各个领域的能力都在快速提高,几十年前的“图灵测试”已经没有意义了
2.最炸裂的其实是高难度测试准确率也在快速提推升,要知道推理模型的推出还不到一年呢,后面会发生啥?
彻底闹掰!“特马对撕”之战,你站哪一边?
特朗普与马斯克之间争执升级,令特斯拉引领美股下跌,美股大盘收跌,纳指一度较日高跌近2%。【特斯拉股价暴跌14%,大家觉得跌到位了吗?“撕逼”之战,你站哪一边?】
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法