$英伟达(NVDA)$ $英伟达(NVDA)$

人工智能不是概念,因为人工智能拥有自我学习自我进化的正反馈循环。

目前的o1大模型能力有多强可以看这个例子:

# 中文版 仔细考虑所有边界条件,回答以下数学问题: 最初,公交车上有若干人; 到达第一站时,上来3个,下去5个; 第二站上来7个,下去12个; 第三站上来45个,下去23个; 第四站上来18个,下去12个; 第五站上来9个,下去8个。 提问:第五站之后,第六站之前,车上最少还有几人?

# English version Carefully consider all boundary conditions and answer the following math question: At the starting station, some people boarded the bus; Then, at the first stop, 3 people got on, and 5 got off; At the second stop, 7 people got on, and 12 got off; At the third stop, 45 people got on, and 23 got off; At the fourth stop, 18 people got on, and 12 got off; At the fifth stop, 9 people got on, and 8 got off. Question: Between the fifth and sixth stops, what is the minimum number of people remaining on the bus?

这个看起来人畜无害的小学数学习题在 o1 之前可以说把所有大语言模型都杀得片甲不留,因为它实际上精巧地隐含了多层嵌套的、人类习惯成自然的隐含条件,大致可以分成三层:

1.车上的人数无论如何都不能为负。如果模型没能考虑到这一点,很容易算出错误结果 22 人,能够将这一点纳入考虑的话则可以得到 29 人;

2.乘客不会在一个车站上车后,立即从同一车站下车。将这一点也纳入考虑的话,结果应为 52 人;

3.车上应该总是有一个司机。将这一点也纳入考虑的话,结果应为 53 人。

经过我们此前的大量测试,在 o1 之前,只有少数最顶尖的模型(GPT-4/4o、Gemini 1.5 Pro 等)能够时不时地得到 29 人这个结果,也就是时不时能达到第一层水平(有时还是会算出 22 人,甚至其它更加错误的答案)。而 o1 已经能够达到第二层。

不过多频次、多语言测试显示出,即使它也不能稳定地达到这样的模糊思考深度,通常只能得到 29 人,基本上只有在面对英文版问题时才能时不时地得到 52 人的结果,而且在得到这个结果时,它需要的思考时间显著地比平时更长。

还有一个值得一提的现象。由于 o1 可以让用户展开观察它的思维过程,在对几个得到 52 人的案例的展开观察中,我注意到其中一次 o1 在计算约束极限时,只计算了前三个车站,后两个车站被它跳过了(在思维过程中直接跳过,而不是在最终回答里省略)。询问它为什么跳过之后,它解释说在推理时注意到后两个车站的约束条件不如前三个那么强。这让我相当惊讶,因为如果以上述几个隐含条件来对各个车站列出约束不等式的话,后两个车站对应的不等式相较于前三个,确实是更弱的,可以不考虑。但它甚至都没把它们列出来,就仿佛直觉性地“猜”到了。如果这不是巧合而是它的确具有的某种跳跃推理能力,也许进一步强化后会有更多难以预料的表现。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论