360纳米AI搜索
“DeepSeek-R1”大模型-满血高速专线版测评
1月25日,360纳米AI搜索软件-AI搜索功能接入“DeepSeek-R1”大模型;1月30日上线“DeepSeek-R1”大模型-满血高速专线版,于2025年2月2日正式地将DeepSeek全系列模型运行在华为910B GPU服务器之上。
这些大模型包括“DeepSeek-R1-360高速专线”、“DeepSeek-R1-满血高速专线版”、“DeepSeek-Chat-V3”、“DeepSeek-R1(偶尔宕机)”、“DeepSeek-Coder-V3”。
目前在360AI纳米搜索APP上可选择使用 DeepSeek-R1-满血高速专线版,使用条件为20纳米/次。网页版暂未找到入口。故此文测评基于纳米AI搜索APP进行。
此次我们也将在数学、代码、自然语言推理三个方面进行对360AI纳米搜索在接入Deepseek-R1满血版模型前后的解答性能进行测评,发现:
1、接入Deepseek-R1模型后的回答思考推理过程更加详尽,抽丝剥茧地为用户展示层层递进的思维过程;
2、且会运用多种解答思路验证答案,站在用户的角度上去理解问题、纠正问题,并给出正确答案;
3、而由此带来的思考时长较长。
评价或显主观,一起分享学习。
1、数学能力
我们提出的问题是“如果一个袋子里有5个红球和3个蓝球,随机抽取两个球,求至少有一个红球的概率?”
360智脑pro模型 给出了解答过程如下:
图1 | 智脑pro数学能力解答
而使用Deepseek-R1联网满血版671B作为回答模型时,其思考推理过程更加接近人类的思维过程,是一个理解问题—选择方法—解决问题—验证答案—确定答案的缜密思维过程,思考过程对用户更加友好,适合深度学习和充当教育助手。
图2 | DS满血版数学思考片段
图3 | DS满血版数学能力解答
虽解答给出的答案一样,但接入Deepseek-R1模型更为详尽和准确,其思维过程不仅仅完整展示了拟人化的思考过程,还考虑了——
多种方法验证答案是否正确?
组合数的计算是否正确?
有没有其他角度需要考虑?
有没有可能用户的问题有其他理解方式?
比如,是否是放回抽取?甚至检查分数是否约分正确?
当然其带来的思维时长相较更长,此次思考用时145.57秒。
2、代码能力
我们提出的问题是“开发一个命令行文本编辑器,支持基本的文本编辑功能,如插入、删除、查找、替换等,并且能够将编辑后的文本保存到文件中”
360智脑pro模型给出的回答片段如下:
图4 | 360智脑pro代码能力解答片段
使用Deepseek-R1联网满血版671B作为回答模型时,一如以往的推理过程详尽,解答代码在注释更多,更容易用户理解。但思考时长达到261.72秒。
由于篇幅限制,以下为推理过程和解答过程的截取片段。
图5 | DS满血版代码思考片段
图6 | DS满血版代码能力解答片段
3、自然语言推理
我们提出的问题是“你有一个12升的桶和一个5升的桶,如何准确量出9升的水?”
图7 | 360智脑pro推理能力解答
使用Deepseek-R1联网满血版671B作为回答模型时,推理过程详尽展示了推理过程,且给出回答后尽可能地去思考有无过程可以被简化合并,并在经过层层推理后给出答案。
由于篇幅限制,以下为推理过程和解答过程的截取片段:
图8 | DS满血版推理能力思考片段
图7 | DS满血版推理能力解答
虽然给出的解答答案和智脑给出的一样,但思维过程更加贴合人脑思考的过程,且对用户理解而言更为友好,多层次的筛选保证了答案的准确和可靠性,且在最后给出了解答时用到的关键原理。但不得不提到的是,思考时长达到了267.34秒。
精彩评论