MiniMax闫俊杰:资源不多也是好事,能逼你做出真正的创新
笑眯眯、乐呵呵的。明势资本黄明明评价,第一眼看到Minimax创始人闫俊杰,人们很容易被他的外表迷惑。
这位看起来温和儒雅的创始人,却干着最狠的事:
在几乎所有的同行都在迭代稠密模型的时候,他押注了全部资源在另一条技术路线MoE上。事实证明,闫俊杰赌赢了。高性能、低成本的MoE技术路线在之后成为了行业共识。
在市面上的AI应用陷入买量泥沼的时候,MiniMax推出的C端社交产品Talkie却在海外闷声发财,全球用户超过一个亿。
正是由于闫俊杰对AI的深刻理解和超前布局,MiniMax成为了大模型战场里赢面更大的一个。黄仁勋在7月访华期间,还单独会见了闫俊杰,二人围绕AI话题深度交流了2个小时。
本期「和牛商业」整理了闫俊杰创业以来的感悟和对AI大模型及应用的发展趋势思考,希望对大家有所帮助。
2025年7月18日 黄仁勋与闫俊杰在北京会面
一、创业的前提是你有独特的理解
1. 创业不是说有个机会,你最合适,你就是天选之子。创业的前提是你有独特的理解。第二是,你的资源很可能不是最多的,这也是好事,逼你一定要做出真正的创新。
2. 靠融资是打不死其他人的。排在前面的中国创业公司,没有谁的资源能比别人多一个量级。拐点只可能来自于技术、产品或者是商业化效率的领先。
3. 认识比自己更强的人,这可能是创业能带给我的为数不多的短期满足。当你从更高层面思考,很多东西反而没那么难了。
4. 作为一家小创业公司,如果在竞争中打不赢,那我们就应该被淘汰。大厂的竞争带来一个好处,就是让我们能更快看清,创业公司能赢的底层是什么。
比如买量,大厂的实力可能是你千百倍,你在这里和它竞争可能没用。我们能做的就是无限放大能让我们变强的事,有两点:一是如何提升技术,二是如何跟用户做更好的共创。
5. 不光是选择MoE,包括创业里各种各样的决策,什么时候感觉这个选择做对了呢?你会发现这不是选择,而是你能够想到的唯一一条路,只有那一条路可以通向你的目标。当时只能这样,如果做不出来就完了。
6. 我们基本上都选最冒险的那种,因为做每件事都是做到极致才会好。我选的技术路线也是上限最高的,几乎没有退路,算力方式也比较激进。
7. 如果没有足够好的产品能力来承接,即使你有了一些技术进展,这些东西最终也不是你的。一个独立发展的创业公司一定要考虑产品。
8. 大厂来做这个事的时候,一开始也是感觉到压力比较大,但是后面意识到这样两件事的时候,就开始没有压力了。第一件事是基本的常识:产品做的怎么样。在某些场景来看,本质上用户规模还是取决于产品留存率等指标。但是再往后可能是取决于商业化的效率。
这其实是没法走捷径的,得需要花足够长的时间来打磨,花足够长的时间和用户在一起,花足够长的时间来实现更强的技术创新。
所以说,钱和资源对大家来说可能是有差异的,但是时间其实是一样的,甚至创业公司的时间还更长,因为创业公司更加专注。所以我觉得就是至少从时间的角度来说,对创业公司来说是公平的。
9. 我们没有一块GPU,因为持有资产会使动作变形。如果我有很多GPU,在商业上变得更好的方式就是对外租GPU。我还是想让公司更简单。
10. 如果看一眼我们每个月的账单,还是会非常心疼。当一个东西很奢侈的时候,很多时候就会想要不要走点捷径,比如可不可以先把产品提升好。但我们的实践证明,走捷径的时候就会被打脸,至少我犯了类似超过十次的错误。
11. 我和梁文锋2023年初认识后,他有两件事对我有启发:一是他们的品牌做得非常好,它的信誉和口碑是量化行业最好的之一。另一个启发是DeepSeek一开始没有产品,所以更聚焦。
二、我们非常明确,是一家技术驱动的公司
1. 我们非常明确,自己是一家技术驱动的公司。它不是一个口号,实质是,当遇到冲突时谁说了算?
比如海螺视频,页面很粗糙,甚至我们刚上线时,有很多海外用户,却没有英文界面。一定会有用户提,为什么Runway支持一个功能你没有,为什么可灵出了App你没有。
但一旦你去解决这些简单问题,模型进步速度就会变慢,因为精力会分散。当时我们的选择就是听算法的,优先做算法上限高的功能。
2. 2022年最开始的时候,第一代模型最早其实就是把别人的论文复现出来。所有的细节都有,我们就是把它复现出来。
之所以选择MoE这个技术方向,是因为发现再往上扩参数的话,用Dense就扩不上去了,至少我们自己没有那么多算力去扩。所以要扩的话只能做MoE。
但相当于只知道这个技术方向,细节我们不知道。所以2023年的状态就从在别人的论文基础上来复现,转到细节要需要来自己摸索。
2024年就更不一样了。我们开始意识到,如果要再往上走,比如说要解决这个无限长度的输入和输出问题,我们一定需要Linear Attention。这相当于我们不光没有可参考的细节,连方向也没有了,因为美国那些公司他们其实也没这么大规模做过。这就相当于是说方向也得我们靠自己来定。
这本质上是一个科技创业公司,花了三年时间,从完全复现论文到开始具备自身核心创新能力的过程。
3. 技术做不好,所有东西都是问题;技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,这件事我花了两年才意识到,但偶尔还是会继续犯这样的错误。
4. 第一次创业,很多经验不具备。如果可以重新选,应该第一天就开源。如果我是OpenAI,我今天都应该开源,因为它的核心能力已经不是模型比 Claude或Gemini好多少,而是ChatGPT的品牌与心智。
5. 大模型对人类社会的核心意义就是做更好的信息处理,而我们每天看的大部分信息都不是文字,而是多模态内容:打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西也都是图片。所以为了提高用户覆盖度和用户深度,唯一办法就是能输出多模态内容。
6. 我们看重多模态,因为它可以让更多人来使用AI,包括老人和小孩。当我们在产品里加入图片和语音时,可以明显观察到用户的上手门槛,甚至渗透率的变化。从今日头条到抖音,一模一样的事在移动互联网领域已经发生过一次了。
7. 我现在对技术的理解逐渐变得简单:要大投入去做的技术研发,不应该追求10%的提升,而应追求几倍的提升。因为前者你不做也会有人做;后者很多时候我们自己不做,外面没人做,而它对满足用户需求又很重要。
我们在什么样的技术方向上最愿意花钱?核心判断是我们认为这个方向能不能带来几倍的提升。
8. 对模型的理解基本上等同于对产品的理解。产品越往下做,对模型理解肯定要越深。如果没有对模型的强掌控力,就很难掌握产品成本的变化,也无法调教对用户的响应时间。
而且做产品你会遇到很多问题,什么问题可以解决?什么不能解决?怎么迭代?这些都需要你对技术的掌握。
9. 每当我们的模型有重大提升,处理速度有显著提升时,就可以看到用户使用场景和用户使用深度显著变高。
反过来,这里也有一个真实案例:我们曾有一个bug导致对话重复错误率变高,当天的对话量就掉了40%。这也解释了我们坚持技术创新的最底层原因。
2024年,闫俊杰在MiniMax首届Link伙伴日展示 创业之初,团队写下的初心和路径判断
10. 今天的AI应用,要取得渗透率和使用深度上质的提高,我们认为最重要的三个优化方向是:
第一是如何让模型的错误率持续降低。为什么大模型大部分时候可以做比较好的问答,但是很多时候,比如在专业场景下会出现问题、作为Agent会出现问题,本质上是因为错误率太高了。解决复杂的问题就需要产生多步思考,多步的话,它的错误率基本上就是相乘的关系。
第二是无限长度的输入跟输出。人的一生大概会处理的信息量可能是10亿token的量级。比如说我明天会干啥?很多时候是由历史的我和今天的我来决定的。因为它其实就是一个10亿token的量级。
第三是多模态。我们可以想象一下,我们在手机上都干什么。其实大部分的交互还是多模态的图片、视频等,当然也有文字。但对大部分人来说字的占比其实并没有很高。如果我们认为AI会越来越大众化的话,它应该就是多模态的交互的形态。
11. 技术的上限这件事相对来说没那么确定,需要更多的探索。但是成本下降这事,一定是有办法的。
12. 现阶段产品价值的来源,核心还是你的模型性能和算法能力。你可以做很多产品feature,但你会发现,几乎所有大的提升都来自模型本身的进步。
三、模型能力的提升,并不依赖要有很多用户
1. 我觉得中国人工智能产业过去一两年一直有个巨大的误区:就是认为用户越多,模型能力提升越快。这个逻辑非常错。你看ChatGPT的DAU是Claude的50倍到100倍,但它的模型并没有好50倍,二者其实差不多。这就反映,智能水平的提升,其实没那么依赖要有很多用户。
2. 更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。这个现象的底层原理是,在日常使用中,模型比大部分用户更聪明,大部分用户的Query(查询)其实没有模型自己模拟得好。
3. AI时代,大厂与初创公司最终所占的市场比例,可能会比互联网或移动互联网公司的比例更为凄惨,极端的比例可能会达到9:1。
4. 产品能力需要依赖大模型技术能力。一年之后的技术大概率不是现在的技术,明年最大用户量的产品大概率也不是现在的产品。再过3年,类似微信、抖音等量级的AI“杀手级”应用就会出现了。(2024年)
5. 我认为Google今年会更强,因为它同时掌握TPU(Google自研的AI芯片)、训练框架(TensorFlow)和算法,可以一起优化。所以Google做这件事相对简单一点。而我们不能自己定制GPU,只能在一个标准硬件上去做,这就会更复杂。(2025年)
6. 移动互联网产品,要思考有哪些供给、哪些消费。而AI产品其实不需要(人的)供给。AI既有分发,也有供给能力,而且AI能力会不停变化。一个移动互联网产品体验变好了,大概率是因为供给变了。
而在AI产品里,它主要依赖于模型能力,或者说得到供给的方法发生了变化。它们(移动互联网产品和AI产品)的周期、确定性都不一样,增长方式也不一样。
7. Agent类产品,如果特别依赖推广,大概率就不太对。
8. 当问产品是复杂好还是简单好,大部分人一定会说简单好。但我自己比较怀疑这件事,尤其在一个行业发展前期。你想腾讯在做出微信之前,也是因为先做出了QQ,而QQ是一个非常复杂的产品。
9. 我们认为,AI领域一定会有多个玩家持续存在。原因有三点:
第一,我们目前用到的所有模型,都依赖对齐。很明显,不同模型的对齐目标不一样。比如,有的模型对齐目标是一个靠谱的程序员,那么它做Agent就会特别强;有的模型对齐目标是与人的交互,那么它情商就会比较高,能够做流畅的对话。不同的对齐目标反映了不同公司或者组织的价值观,这些价值观最终会导致模型的表现非常不一样,也会使得不同模型拥有各自的特点,并且长期存在。
第二,我们最近半年用的AI系统已经不是单个模型了,而是一个多Agent系统,里面涉及多个模型,不同的模型也可以使用不同的工具。这会让AI智能水平越来越高,能够解决越来越复杂的问题,但也会带来一个结果,单一模型的优势在多Agent系统里会逐渐变弱。
第三,过去一年中,最好的模型虽然还是闭源的,但好的开源模型越来越多,同时也在不断逼近最好的闭源模型。
10. 做移动互联网产品,大家特别在意有没有挖到一个用户痛点。但去年DAU超百万的六七个AI原生产品都不是针对痛点设计的,是把一个突破性技术释放,慢慢变成了产品。目前的产品方法还是技术driven,而非产品driven。如果技术进步速度慢下来,又会变成产品推动的方式。
2025WAIC大会 闫俊杰发表主题演讲 阐释AI会变得越来越强
11. 目前AI产品有两种,一种是满足娱乐需求的,一种是满足效率的。娱乐的不说了,是运营的属性、产品的属性,更加偏综合产品能力。偏效率的一定是需要做(多模态)的,因为从历史上来看,所有效率的产品基本上最终大家只会用最好的。
12. 对做模型的公司来说,自己做产品几乎是必然的选择。反过来,对做产品的公司也是一样的。如果它们的产品得很大,他们也希望自己掌控模型的。这也是必然的路。
13. 如果企业认为Query重要,就应该无限投流;如果认为Query量跟模型效果之间是对数关系,不是线性关系,价值就没那么大;如果认为商业化重要,只要产品能转正就应该无限投流。核心不是投流本身,而是一家公司要的那个东西到底是什么。
14. 我觉得DeepSeek和智谱是挺不错的。DeepSeek很纯粹。智谱,他们是最早有AI路线图的,这点我很佩服。
15. 腾讯在2000年时也不知道该怎么赚钱,尝试无数商业化变现方案都失败了,最终找到了移动增值业务,后来慢慢找到了QQ,找到了游戏,都会经历这么一个过程。(商业化)是对一个行业的考验,如果能通过就能出来,通不过确实应该关掉。
四、团队需要有一个共同的思考基座
1. 更重要的是,大家怎么有一个共同的思考基座。因为每个人做事方式不一样,如果分得特别清楚,会导致不同模块的逻辑完全不同,即使每个人都素质很高,一个公司也没法很好运行。正确方式是,公司最底层认知能对上,谁来做决策,都会差不多,组织才会变顺。
2. (我们的)组织结构只有三层,我,我的-1和我-1的-1。我们只有三个部门:一个技术部门,我来负责;一个产品部门,分C端产品和开放平台,各有一个负责人;一个运营和增长部门,既做产品增长,也做公司增长,HR也在这里,有一个整体负责人。
3. 有些非常强的人其实没法融入团队,而有些看起来没那么强的人却可以使整体输出变强。所以面试时,我会关注他在重要项目里和周围人的合作,包括和mentor,和上下游怎么合作。
4. 我希望MiniMax的组织足够简单,因为在一个组织里,大家觉得一个事不对,但又不直接说,这对所有人都是一个很大的伤害。
5. 拼多多前身是拼好货,美团是团购,字节是今日头条,都不是后来真正大成的产品。大成与小成的区别是,大成的公司都做了组织创新,这让它们能持续做出越来越强的东西。
6. 在我第一次管理之前,自己心里面的想法是,做技术的人应该就是一个人解决所有的问题,但是突然间有一天开始意识到,你想做的事儿有时候会变得很难,一个人无论再怎么努力都解决不好。
当你意识到这件事的时候,不是说你想去做管理,而是说你为了做成这件事,或者为了把这件事做得更好,你一定得跟很多人来合作。
7. 主要的不在于组织架构,而是对人的要求。
一是希望各方向的leader是提方案的人,而不要等着别人来提方案。
二是想要根据客观状态分析找到理性方案的人,而不是直接复制上一家公司经验的人。
8. 两位同样优秀的同学,假设一个去了字节,一个去了需要依赖技术和创新安身立命的创业公司。2到3年后,那个去创业公司的人变得显著更优秀的概率更大。
9. 我出生在河南一个小县城,很多东西周围没有人教,只能靠自己,这就形成了自己领悟事情的能力。我也不想这样,我是被迫变成这样。但今天看,这个能力还是非常有用的。当我去做一个没做过的事,能快速找到一些底层逻辑。
10. 大部分做技术的人会觉得自己很牛,是天才。但我不是这么认识这个世界的。
11. 半年多以前,很多人觉得我有些焦虑,最近半年不再焦虑了,核心是开始意识到要做取舍。
12. 我从小在比较落后的地区长大,现在很多的时间生活在城市,但也有机会经常看一下老家人怎么生活。很明显的观察,他们可能比城市里的人更需要人工智能的帮助。不管是老人,还是像我这样正在工作的人,甚至一些更加年轻的学生。
和牛商业的宗旨是“提供先进商业方法论以及工具,鼓励创业创新精神”,拥有20万+核心商业人群读者,覆盖行业大佬、创始人、高管、投资人,在创投、科技、财经领域具有极强的行业影响力。2021年与创业邦、i黑马、虎嗅等一线商业媒体共同获得“财经头条风向标奖”。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


