$英伟达(NVDA)_老虎社区_美港股上老虎

人工智能不是概念，因为人工智能拥有自我学习自我进化的正反馈循环。

目前的o1大模型能力有多强可以看这个例子：

# 中文版仔细考虑所有边界条件，回答以下数学问题：最初，公交车上有若干人；到达第一站时，上来3个，下去5个；第二站上来7个，下去12个；第三站上来45个，下去23个；第四站上来18个，下去12个；第五站上来9个，下去8个。提问：第五站之后，第六站之前，车上最少还有几人？

# English version Carefully consider all boundary conditions and answer the following math question: At the starting station, some people boarded the bus; Then, at the first stop, 3 people got on, and 5 got off; At the second stop, 7 people got on, and 12 got off; At the third stop, 45 people got on, and 23 got off; At the fourth stop, 18 people got on, and 12 got off; At the fifth stop, 9 people got on, and 8 got off. Question: Between the fifth and sixth stops, what is the minimum number of people remaining on the bus?

这个看起来人畜无害的小学数学习题在 o1 之前可以说把所有大语言模型都杀得片甲不留，因为它实际上精巧地隐含了多层嵌套的、人类习惯成自然的隐含条件，大致可以分成三层：

1.车上的人数无论如何都不能为负。如果模型没能考虑到这一点，很容易算出错误结果 22 人，能够将这一点纳入考虑的话则可以得到 29 人；

2.乘客不会在一个车站上车后，立即从同一车站下车。将这一点也纳入考虑的话，结果应为 52 人；

3.车上应该总是有一个司机。将这一点也纳入考虑的话，结果应为 53 人。

经过我们此前的大量测试，在 o1 之前，只有少数最顶尖的模型（GPT-4/4o、Gemini 1.5 Pro 等）能够时不时地得到 29 人这个结果，也就是时不时能达到第一层水平（有时还是会算出 22 人，甚至其它更加错误的答案）。而 o1 已经能够达到第二层。

不过多频次、多语言测试显示出，即使它也不能稳定地达到这样的模糊思考深度，通常只能得到 29 人，基本上只有在面对英文版问题时才能时不时地得到 52 人的结果，而且在得到这个结果时，它需要的思考时间显著地比平时更长。

还有一个值得一提的现象。由于 o1 可以让用户展开观察它的思维过程，在对几个得到 52 人的案例的展开观察中，我注意到其中一次 o1 在计算约束极限时，只计算了前三个车站，后两个车站被它跳过了（在思维过程中直接跳过，而不是在最终回答里省略）。询问它为什么跳过之后，它解释说在推理时注意到后两个车站的约束条件不如前三个那么强。这让我相当惊讶，因为如果以上述几个隐含条件来对各个车站列出约束不等式的话，后两个车站对应的不等式相较于前三个，确实是更弱的，可以不考虑。但它甚至都没把它们列出来，就仿佛直觉性地“猜”到了。如果这不是巧合而是它的确具有的某种跳跃推理能力，也许进一步强化后会有更多难以预料的表现。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

社区

评论

热议股票