这几天趁着热乎劲,研究了一下DeepSeek。大概有个认知,跟大家分享一下。
简单说,DeepSeek发明了一种针对特殊应用场景的AI软件框架,可以单独训练一个针对性的边缘AI,可以本地化部署,但需要提前用中心化的大模型AI进行训练。
DeepSeek先让Chat-GPT给他一个答题的最大可能性方向。然后再通过输入的数据在这个方向上推导逻辑过程。这样当然就节省算力了!
当然也不是完全没有创新,因为边缘系统对问题场景的运算效率很高,因为有很高的针对性,这是大模型无法实现的。大模型会“培训”一套机制给边缘AI(就像给一套模拟试题集,然后给模拟考试),一旦学会后,边缘AI就可以解答具体情景里的问题了。
这个过程有点像学开车,一开始新手学车需要大脑充分参与训练,等学会了以后,大脑对开车这件事的参与度就很低了,比如你可以边开车边聊天。“肌肉记忆”下的简单感官反应,就能实现开车的大部分过程。在这里,大脑就是GPT这种大模型,身体手眼脚等会在培训中形成一个针对开车这件事的“肌肉记忆”,就是具体的AI软件,培训形成这个软件的机制框架就是DeepSeek。这个反应很快不太需要大脑参与的肌肉记忆,需要大模型深度参与的“提前”训练。一旦训练完成,使用次数越多,远端大模型的参与就会越少,甚至最终不用参与。
这种方式的缺点是具体某个边缘AI软件只能解决有限的一类应用场景。比如可以帮助医生快速诊断开处方,但不能解决厨师的菜谱问题。你想让他学新东西,恐怕就要花钱升级硬件了。优点是速度快省钱,但不可能什么都懂。
将来的格局可能是这两种AI都存在。边缘AI针对性强,便捷便宜,PC上就能部署,但依赖大模型AI的培训。所以预计会有一轮PC终端设备的硬件升级,目前的终端设备配置普遍还是有些低的。这就像2010年前后的智能手机普及浪潮。
如果未来果真如此,利好的公司会是哪些呢$英伟达(NVDA)$ $台积电(TSM)$ ?
精彩评论