1.TriviaQA:可以理解为常识数据集,测试AI的知识储备和基础推理,对AI没难度,几乎满分
2.MMLU :综合性的语言理解测试,包含多个学科的题目,如数学、物理、历史等,几乎满分
3.Competition math:竞赛数学,类似咱们这的奥数吧,提升最明显,4年前是5分学渣水平,现在是……90以上
4.AIME:美国数学邀请赛,比上面那个更难一点,不到90分
5.GPQA:测试理解复杂概念、应用科学知识和进行逻辑,这一年发展也很快,接近80分
6.SWE tasks 软件工程任务,测试AI的软件开发能力,比如编写代码、调试程序啥的,几乎是从0分起步,目前70分段位
7.最终boss是人类的终极考试(Humanity's last exam)……这个怎么说呢,从名字就看出来这是人类挽尊题,如果到满分基本就是AGI雏形初现时刻,目前20+段位。
大趋势都看得出来:
1.所有线条均呈现上升趋势,AI在各个领域的能力都在快速提高,几十年前的“图灵测试”已经没有意义了
2.最炸裂的其实是高难度测试准确率也在快速提推升,要知道推理模型的推出还不到一年呢,后面会发生啥?
精彩评论