“OpenAI 是一个端到端的组织。”
文丨程曼祺
2023 年 2 月,美团联合创始人王慧文宣布创立光年之外,随后他密集拜访了一个又一个中国顶级的 AI 研究者,每见一个他就问:“你最推荐我继续和谁聊” 一个月后,他找到了自己的算法联合创始人——当时 31 岁的曹越。
曹越过去十年的每一个关键选择,都是大模型演化的一个注脚:他在 2014 年转向深度学习,2021 年拿下 ICCV 最佳论文,2022 年加入中国最早聚焦大模型的智源研究院,2023 年成为光年之外联创,2024 年创立 Sand.ai 做视频生成。
这篇访谈中,曹越完整分享了从研究员到创业者的十年历程,也折射出整个 AI 行业从萌芽到崛起的变化。
在个人选择和趋势判断上,曹越有一个贯穿的视角:关注组织与协作方式。2021 年,曹越凭借 Swin Transformer 拿下 ICCV 最佳论文马尔奖,但看到同年 OpenAI 发布的 CLIP 和 DALL·E 后,他很快判断,对方的突破背后是不同的组织和思维方式:
当时大多数国内研究组还是论文驱动,而 OpenAI 是去思考这个领域有什么大的、本质的问题,更加问题驱动。
当你很关注论文,就会受审稿人品味影响,去优化所谓创新性……但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。
这促使曹越在一年后,加入主攻大语言模型的智源研究院。当时 ChatGPT 尚未发布,大语言模型还不是行业共识。
24 年至今,曹越开始作为一号位创立 Sand.ai。在 Sand.ai 的两代模型——Magi-1 到 10 月刚发布的 Gaga-1 背后,是曹越组织思路的继续变化:从更侧重模型、技术驱动,到转向模型与产品/需求的深度垂直整合。
Gaga-1 的目标很具体——让 AI 视频中的人物真正 “能表演”。以往叙事内容制作的 AI 生成最大痛点就是:人物不一致、不能音画同出、表演太假。
研究背景的创始人能多快成为专业 CEO?环境又能给他们多少余裕?曹越和 Sand.ai 会以实践写下对这个关键问题的答案。
* 本期访谈也已发布「播客版」和「视频版」。
从 ICCV 最佳论文到研究 OpenAI 组织力
“OpenAI 最核心的思路,就是设计一个 scalable 的系统,然后最大化压榨算力。”
晚点:过去十年,你的每个关键选择都有代表性。回顾过往的 AI 经历,第一个在你脑海中出现的时刻是什么?
曹越:那还是转向深度学习的时刻。那是 2014 年,我上大四,当时深度学习在国内还不怎么火,甚至有教授在个人网页上明确写:“不做超过两层的神经网络”。
我比较幸运,当时我的副导师去伯克利访问,发现硅谷所有人都在讨论深度学习。我们组也是国内最早一批买了 GPU,开始做深度学习的组。接着是 17、18 年,我加入了 MSRA(微软亚研院)的视觉组。
晚点:这是个非常传奇的组。
曹越:对,他们在 14 到 15 年做出了 ResNet(残差神经网络)。一批人在 16、17 年陆续出来,有去公司的、有创业的。(编者注:这里走出来的创业者有商汤创始人汤晓鸥,旷视首席科学家孙剑,Momenta 创始人曹旭东等。)
这个组确实有一些传承。我最受益的有几点:一是你要去做最受关注的 topic,而且它是一个还有很大机会的,不是已经收敛的 topic。二是一旦识别到一个重要机会,要放足够资源去做到极致,而这本质是一个组织问题。
晚点:一个很受关注的方向,往往已经很多人在做了,怎么判断它仍有很大提升空间?
曹越:这个还真是有一些直觉。当你真的在一个行业里做了一段时间,思考过很多问题后,你会变敏感:一些在别人看来微妙的基础信号,在你这里会是非常剧烈的信号。
晚点:我们可以讲一个具体例子,就是你和亚研院同事在 21 拿到 ICCV 最佳论文马尔奖的成果 Swin Transformer,它是把 Transformer 用到视觉领域。你们怎么看到这个 topic 的?
曹越:Transformer 2017 年就出现了,它在整个视觉和多模态方向的普及有两个阶段:
第一个阶段是将 Attention(注意力)模块嵌入卷积神经网络(CNN)。
这个阶段的主要的思路,是用 Attention 来弥补 CNN 的缺陷。CNN 天然是局部的,感受野(一个深度学习网络中,“神经元” 能看到的输入区域)有限。而 Transfomer 里的 Attention 则能相对低成本地扩大感受野。
当时还有另一条路,但做的人比较少:就是试图用 Attention 模块直接替代卷积。我们组 18、19 年已经在做这个方向,但还是在跟随之前 ResNet 的整体结构,只是替换了其中卷积的部分。
第二阶是用 Transformer 的整体结构替代 CNN。
2020 年下半年出现了两个重要工作:一是 OpenAI 的 Image GPT。在 GPT-3 后,OpenAI 暴力地把 GPT 用到了计算机视觉,但因为效果不好,大多数人都没理解。
二就是 ViT,Vision Transformer。Image GPT 是直接在像素上做 Self-Attention,计算效率低;ViT 则将像素变成一个 patch,比如一个 16×16 的像素块来处理,它在 ImageNet 的图像分类任务上取得了不错的效果。(注:Self-Attention 自注意力机制,是一种特殊的注意力机制,它不是让输出序列关注输入序列,而是让输入序列中的每个元素都关注自身和其他所有元素,以捕捉序列内部不同位置间的依赖关系。)
这给视觉方向带来的核心认知是:别再拘泥于 CNN,应该尝试引入 Transformer 的整体结构。ViT 证明了在图像分类里可以这么做,因此我们判断:如果能基于 Transformer 的宏观结构,做出能适配多数视觉任务、且效果出色的网络,就有机会替代基于 CNN 的一套网络。
晚点:所以 Swin Transformer 的出发点就是不仅用 Transformer 来做图像分类,也让它能更通用地适应其他常见视觉任务?
曹越:对,包括目标检测、语义分割等等。在这之前,计算机视觉任务的复杂度比较高,不同任务的基础网络结构一般都是 CNN(ResNet),但整个任务的系统会有一些差异。所以这个问题就变成了:怎么用下一代 Transformer-based 网络结构替代过去的 CNN-based 网络结构
因为我们组很早就在研究 Transformer,我们对计算机视觉里的关键方向,图像分类、目标检测等又非常熟悉。所以我们最早在 ViT 之后,看到了这个机会,而且能明确感觉到这是一个大机会,原因有三点:
- 网络结构本身是深度学习领域最受关注的 topic;
- 如果它能实现,它对所有视觉任务的效果都会有较大提升;
- 有机会进一步打破 “计算机视觉必须用卷积” 的思维藩篱。
另一个关键是,我们识别到这个机会后,确实动员了很多力量,把组里能参与的人都拉进来了,一起在各个维度上把 Swin Transformer 做到了极致,最终效果明显优于同期的相似工作。
晚点:这正好是你最受益的另一点,就是看到机会后,你们的组织能支持你们实现到什么程度?
曹越:是的。你要能嗅到机会;也要有组织能力,能真的抓住这个机会,两者缺一不可。
不过这两者确实有时会打架。你不能每次看到什么 topic 热,就冲进去做一波;这样每个工作都做得不扎实,经不起时间考验。我也认识一类人,他每做一个 topic,就做得特别扎实,钻进去特别久,但往往等做好时,已经不赶趟了。但如果比较幸运,这类人还是可以做出非常出色的工作。
晚点:这听起来和企业里的研发与业务决策有共通性:需要思考方向和优先级、投多少资源、团队怎么协作。
曹越:不过看到 OpenAI 和 DeepMind 的一系列工作后,我意识到原有方法论的天花板很明显。AlphaFold 的突破、以及 2021 年初,OpenAI 的 DALL·E 和 CLIP 都很说明问题。
但当时我身边很少有人在研究为什么 OpenAI 能做出这样的工作,以及能给这些工作符合他们影响力的评价。大多数人的第一反应是这么做需要很多算力,他们有算力、我们没算力,所以跟我没关系。其实如果能放下 ego(自我),仔细研究这两篇工作,他们的做事方法论、mindset(思维方式)和组织形态都和当时我们做论文的感觉非常不一样。
所以 21 年-22 年,我经历了比较大的 mindset shift(思维转换),这促使我从微软亚研院离开,加入了智源研究院。
晚点:你在 21 年时,看到了 OpenAI 的什么做事方法?
曹越:第一是,当时大多数国内研究组还是论文驱动。这带来很多问题,比如论文有作者列表,有一作、二作,本质上不鼓励合作。OpenAI 也发论文,但并不把发表当作核心目标,而是去思考这个领域有什么大的、本质的问题,更加问题驱动。
第二时,当你很关注论文,就会受审稿人品味的影响,去优化所谓创新性,看能不能在方法上搞一些技巧。但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。
第三点是组织的不同:一个论文驱动的组织,大概率规模比较小,主要合作对象是学生。但如果你要打造一个系统,就需要很多类型的人:有人爬数据、有人洗数据、有人训模型、有人做评测,以及最后做 PR。
这需要一群有相似目标和思维的人,他们都希望把系统做好,而不是关注自己的论文署名排序。当时我不知道这种组织形态是什么,后来我发现,这就是创业公司。
晚点:所以你思考的起点是你想做出更厉害的 AI 技术,然后开始研究这背后的做事方法和组织方法?
曹越:对。那时其实还有一个障碍,就是疫情。从 2020 年到 ChatGPT 出来的两年多里,国内和硅谷的沟通少了很多,很多学术会议都因为疫情变成远程了。这导致国内忽略了 OpenAI 的变化,实际从 2020 年开始,他们已展现出了非常不一样的成果。
这就是我在 2011 年到 2022 年去智源前想得最多的事:为什么他们能做出来这么牛逼的东西?我们应该打造一个怎样的组织?身边有什么人能一起做这件事?
晚点:你当时没想过直接创业吗?
曹越:没有。那个时间点,我对创业的认知没那么深。
晚点:智源当时是什么状态?让你觉得它有可能实现你的想法?
曹越:智源是国内最早一批拥抱大模型的组织,它也是一个新型研发机构,不以发论文为核心指标。智源也很早就在部署算力集群,2022 年年中就有 1500 张 A100 连在一起的集群,当时国内超过 1000 卡的集群非常少。它还有个目标是开源开放,把模型开源,让更多人用起来。
所以它有一个比较宽松的科研环境,你可以筛选出有相似 mindset 的人和你一起做一些更前沿探索;大家的目标也是要构建一个系统。
在我当时的认知里,智源是国内最像 OpenAI 的组织,也是一个很好的,能让我自己做一些探索的组织。
中国为什么没有出现 OpenAI?王慧文说是 “不够富”
“到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?”
晚点:后来怎么开始光年之外的?
曹越:加入智源一段时间后,ChatGPT 就出来了,国内形势瞬间巨变。之前可能大家都没有觉得我加入智源是一个正确的选择。
再后来就是王慧文在朋友圈发英雄帖招募创业伙伴,真正点燃了国内这一波大模型热潮。
晚点:你和王慧文是清华校友,你们之前认识吗?
曹越:不认识。在 ChatGPT 出来之后到认识老王之前,我已经明确知道这是一个大机会,而且还有很大提升空间。我当时也意识到,不管过去是做计算机视觉还是 NLP(自然语言处理)的,都可以参与进来。
因为我已研究 OpenAI 一段时间了,他们的方法论和过去都不同,并不是带着先验的人为经验去看特定任务,而是前面提到的——去思考怎么设计一个 scalable 的系统,使它可以最大化压榨算力。
我也在想,我自己能怎么参与这个事?这首先需要做模型的能力,不仅是能复现,而且要能做前沿探索;还要考虑钱从哪儿来,后续怎么产品化,组织应该怎么建。
晚点:所以这时你已经在考虑自己创业了?
曹越:琢磨过。但结论是,这件事复杂度很高,我自己当时的能力,在于构建一个能训模型的组织,在其它方面缺的很多。所以和老王聊过后,感觉一拍即合。
晚点:他应该聊了很多人,为什么选择了你?
曹越:是,他每聊一个人就会问:你在这个领域最推荐我继续和谁聊?他几乎把当时国内比较好的研究者都聊了一遍。为什么选我?好像没具体提过。可能的原因之一是,我之前就从 MSRA 加入了智源,展现了更多对这个大方向的 conviction(确信)。
晚点:所以王慧文当时也和梁文锋聊过?
曹越:应该是有。我 23 年 3 月那会儿其实只跟老王和梁文锋聊过。
晚点:你和梁文锋聊的契机是?
曹越:也是他找过来。那是 DeepSeek 的筹备期,梁文锋当时也和国内很多研究者都聊了一遍。不过我见他时,已经答应老王了。
晚点:你前面也提到和王慧文是一拍即合,具体怎么契合法?
曹越:我第一次见老王收获就非常多,明显能感到这个人非常强,认知很深,也有很多实战经验。
当时我长期在思考的一个问题是:为什么中国没有出现像 OpenAI 这样的组织?我也问了老王这个问题,他很快给了一个答案:因为国内这些互联网公司,或者说我们的发展阶段,导致我们 “不够富”。
就是说,当我们处于追赶阶段时,前面有明确的目标,你只需要以更快的速度追上,在这个阶段,ROI(投资回报率)最高的是效率创新、模式创新,而非原创性创新。
而当你越来越接近前沿时,前面几乎没人了,方向感会变弱。这时,各个维度都需要思维转换:
对创业者:追赶和原创性创新需要不一样的能力。
对投资人,之前大家追求投 “看明白了” 的事,或 Copy to China 的项目。而现在,这类项目越来越少了;当更原创、有风险的 idea 放到你面前,你敢不敢投?
还有整个社会对失败的态度:原创性探索相比更确定性的追赶肯定会有更多失败,但失败中会涌现成功。失败能不能得到更多包容?失败的公司怎么退出?
相当于整个链路和生态都得变化。老王当时的认知是很深的。到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?我自己对未来很乐观,我能明确感到我们处在一个转换阶段。
晚点:你问王慧文 “为什么中国没出现 OpenAI?” 他说 “不够富”;而梁文锋做 DeepSeek 时,刚好是相对富的状态。
曹越:如果没记错的话,23 年初聊的那次,梁文锋当时的想法就是希望能在国内做一个 OpenAI 这样的组织,在相当长一段时间里不以商业化为目标。他也认为中国需要越来越多原创式的创新。
晚点:光年之外这段经历中,哪些判断和做法是你自己现在创业依然保持的?哪些会去调整?
曹越:对人的判断没有变:就是招募那些毕业 3-5 年或即将毕业的 PhD(博士生),他们沉浸一线、能力出色、学习状态处于巅峰;不用太在意他之前到底是做 NLP、视觉还是语音。这一点现在可能是共识了,但每个公司意识到的时间不太一样。在 23 年时,光年之外和 DeepSeek 已经是这样招人。所以当时这两家公司的人才竞争最多。
另一个经验是,CEO 的压力还是非常大,所以要照顾好自己身体,控制焦虑。
晚点:这有什么方法吗?
曹越:对我来说,最有效的方法是思考一些人生层面的大问题,它其实能促使你去关注过程本身。
晚点:之前我们聊到,今年 3 月 DeepSeek 大火后,你和梁文峰又见过。这缓解了你的焦虑,为什么会如此?
曹越:当时外界对 DeepSeek 很亢奋,但他自己挺平静。其实在那个状态下,要保持平常心超级难。我见过他后,也会有意少去关注那些可能给我输入噪音的渠道。
“创业后,突然感觉什么都对了”
“这件事的另一面是,极致地追求个人成长。就像芒格说的:要得到你想要的某样东西,最可靠的办法是让你自己配得上它。”
晚点:光年之外结束时,至少对外界来说是非常突然的。你当时是什么感受?
曹越:没能继续往前走,肯定会有失落。但那时我和袁老师(袁进辉)还要处理很多事,包括组织里的同学后续怎么平滑过渡等等。所以静下来是过了一段时间了。
晚点:那应该是 2023 年夏天之后,你开始筹划创立 Sand.ai 了。这是一个怎样的过程?
曹越:那时在广泛地看,是应该自己创业,还是再加入一家公司。后来还是决定自己创业,看了一些方向后决定做 AI 视频生成。
这是一个找交集的过程:什么事会让自己兴奋?有没有合适的团队一起做?这个领域是否空间够大?同时未来还有巨大提升空间?
晚点:这有点像你做研究时选 topic 的思路:重要的,且有巨大提升空间的?
曹越:是的,AI 视频生成当时还比较早期,Sora(第一代)还没出现;它的潜力非常大,技术侧如此,商业侧也是:它是一个你在解锁不同能力后,就能解锁不同场景和需求的方向,能持续很长时间。
晚点:为什么没有再加入一家公司?
曹越:经历光年之外后,很难再加入一家其它公司。老王一开始找的人都非常对,他找人的方法很对,从技术侧的 Infra、模型再到产品、融资、商业化的完整性也很强。我们在任何维度都不输其它公司。我也不知道这个心态对不对,但当时真实感受就是,我很难决定再加入另一家公司。
晚点:创业本身对你的吸引力是什么?
曹越:我发现创业特别适合我,突然感觉什么都对了。你应该能感觉到,我不是一个非常典型的研究者。相比把一件事钻得特别深,我更关注领域的大方向,关注人和组织。虽然科研也做得还不错,但我也没有强烈地想去拿教职。
那段时间我也一直在想自己是个什么样的人?最核心的自我觉察是:ambitious,这是我的底层驱动力。
晚点:Ambitious 之于你具体意味着什么?是想做成一件事儿,还是想赢?
曹越:是希望能做成一件对世界有很大影响力的事。这件事的另一面是,极致地追求个人成长。就像芒格说的:“要得到你想要的某样东西,最可靠的办法是让你自己配得上它。” 当你能对事物能有深刻认知,并能充分训练自己的能力,你才有可能做出对世界有巨大影响力的事。
回溯自己过去 5 到 10 年的各种决策 ,我发现都是由 ambition 驱动的:比如看到 OpenAI 的 CLIP 和 DALL-E 时,有人的反应是 “这事我做不了,我就说它不好”。而我的第一反应是:为什么我们做不了?难道我们就比他们笨,比他们菜吗?我觉得不是,这和组织方式有关。当我看到和自己技能相似的人能做出非常大的成就时,我希望自己也能做出有类似影响力的事。
所以真的了解创业后,突然感觉什么都对了:它需要一个人有相对全面的能力,它的天花板也非常高,能做成的事情非常多样化;它对一个人的考验也是地狱模式,会促使个人极致成长。
晚点:你选择 AI 视频,和它不在核心大模型公司的最主轴有关吗?
曹越:竞争是一个维度,但不是决策的主轴。本质还是因为 AI 视频方向的技术和商业天花板都很高。它在那个阶段甚至都没有好用的模型。所以它非常适合我这样模型背景的创始人。而直接做大语言模型,那个时间点肯定比较晚了。
晚点:Sand.ai 正式成立、运营是 2024 年 1 月,正式发布第一个模型 Magi-1 是 2025 年 4 月,为什么花了一年多这么久?
曹越:因为我们选择了自回归(Autoregressive)这个路线。还是低估了这个路线的难度。
晚点:为什么选择自回归?为什么它做起来比较难?
曹越:学界做自回归比较早。GPT 出现后,一些团队在 2020 年、2021 年就在尝试。当时大家对自回归的理解是,用一个模型结构同时处理语言、图像和视频。但也是因为它要和语言模型端到端地做在一起,所以一开始的效果没有一些传统的扩散模型好。
我们 24 年用自回归做视频生成时,是认为视频的数据类型天然就是持续顺序播放的,这和语言类似,语言也是顺序去看的。能最大化压缩语言信息的训练方式就是预测下一个 Token。对视频而言,最大化压缩视频信息的方法是不是也是持续顺序地做预测?时至今日,我也觉得这个直觉是对的。
但是这个思路很新,没有好的 reference(参考)。探索过程中,在数据、算法、Infra、预训练、后训练、评测环节,都要做非常多从 0 到 1 的工作,而且每个环节都得做到极致,效果才会好,这对一个刚搭建的团队挑战很大,也确实会面临人手短缺。
晚点:你们在 24 年到 25 年做 Magi-1 时,有多少人?
曹越:三四十人。在那个阶段,一方面是对业务侧的敏感度不够——业务还是需要交付快、迭代快;另一方面,是有些低估做一个新型模型的难度。最终导致了 Magi-1 发布时间相对晚。
晚点:这是否让你们错过了一些业务窗口?
曹越:纯画面、单个素材的生成此前就已经卷到了一个相对收敛的阶段。今年涌现的新能力是音画同出、叙事。
之前训练 Magi-1 的经验,让组织依然有能力训一个不错的自回归模型;同时在新阶段,我们希望能做好以人物表演能力为核心的视频生成模型。算法侧会以更快交付和迭代为目标,这是和做 Magi-1 时不太一样的。
现在的关键是要抓住音画同出的这个窗口。对专业创作者而言,音画同出能力可以生成非常真实的人物。而对大众消费者,它能比较低门槛地去生成一个好看、好玩、可以传给朋友的视频,可消费,能社交。
“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”
“OpenAI 做到了从产研到模型的较好垂直整合:在对齐目标后,产品需求的梯度可以回传到模型团队。”
晚点:刚好在我们这次聊的几天前,OpenAI 突然发布 Sora 2 和 Sora App,它的特点就是音画同出,而且有一些社交玩法。我知道你第一时间用了这个产品,最大的感受是什么?
曹越:模型层面 Sora 2 有 3 个特性:音画同出、能保人物 ID,但最让我惊艳的还是,它在一个约 10 秒的时长里做到了基础叙事,因为它有分镜能力。而之前更主流的思路是用 Agent 来实现叙事,比如一个语言模型负责脚本;一个分镜模型负责分镜生图,然后图生视频;再有配乐的相应模型等等。
OpenAI 非常创新的一点是,它用一个端到端的模型直出了带叙事的 10 秒短片。
晚点:这是不是和 Sora 2 更重视 C 端用户有关。因为更专业的影像内容制作者可能需要 Agent 这种方式去更精细地控制美术风格、分镜和声音。
曹越:可能是一个反过来的过程,有了模型能力提升,才联想到了 C 端场景。
为什么之前大家倾向 Agent?因为早期模型不能音画同出,也不能分镜。这时,一个视频生成模型只是制作流程里的一环,仍需要人来设计脚本、分镜和配乐……从这个工作流延伸,自然的思路是,能否用 Agent 去替代人?
但 OpenAI 的思路是,为什么不能让模型端到端直出叙事能力?这是一个大变化。当然它的前置条件还是模型进展——只有画面、没有声音的视频,一般人是不想看的。最早做出音画同出的人更有可能最先意识到,原来模型可以直出一个 C 端可消费的视频。
题图来源:Sand.ai
精彩评论