AI不止于炫技,更要赚钱。
作者|刘杨楠
编辑|栗子
还记得我们半年前报道过“最懂表演”的视频生成大模型SkyReels吗?它现在可太火了。
发布半年来,SkyReels在开源社区中广受关注,SkyReels V1获得2.4k星标,SkyReels V2获得4.9k星标,相关的音频及组合模型也都分别获得了众多星标。
如今,SkyReels全新版本已经在11月4日上线了。
SkyReels模型之所以能够对开发者有如此吸引力,本质还是因为其切中了视频内容赛道的需求要害。
2025年的AI视频工具市场呈现出刺眼的两极分化。一类面向资源丰富的专业创作者,流程复杂、需要“抽卡”试错;另一类则聚焦泛娱乐传播,难以满足工作场景的精准需求。
由此导致AI视频市场陷入一种尴尬境地,需求方和工具方各有各的琐碎,却无法有机匹配。无论是广大普通用户还是中小企业、专业内容从业者都陷入困境,他们既有超越休闲娱乐的视频创作需求,又无法承受专业工具的学习成本和试错时间。
市场急需一个能够弥合顶尖模型、真实创作需求以及集成工作流程之间鸿沟的平台。
昆仑万维最新发布的全新SkyReels,则是其针对市场工具碎片化给出的战略性答案。作为一个定位为“一站式、零门槛的多模态AI创意平台”的产品,其核心创新不仅在于单个模型能力的提升,更在于对传统创意工作流的颠覆。
昆仑万维的野心,已不止于视频内容。
1.三大革新,把专业创作拉下神坛
全新SkyReels的网页版共有“三大件”,分别是无限画布、智能副驾(Agentic Copilot)以及AI视频模板,三者共同构成一套覆盖音视频创作的全链路解决方案。
最具颠覆性的创新便是无限画布。SkyReels的“无限画布”则从根本上挑战了主导音视频编辑领域长达一个世纪的线性工作流,将所有AI功能和多模态素材集成于一个“所见即所得”的网状空间。无论是图片、视频还是音频,都不再是轨道上的静态元素,而是可交互的积木,让创作者随取随用,跟随创作者的思维流动。更具突破性的是,“无限画布”支持三种核心创作方式,无缝融合拖拽操作、二次编辑以及与Agent进行自然语言交互,满足创作者在不同情境下的需求。
为了同时满足创作者的即时灵感与复杂的专业任务需求,SkyReels还设计了一套双核的“智能副驾(Agentic Copilot)”系统,让AI成为人类创作者的协作伙伴,而非被动执行碎片化指令的工具。
其中,超级智能体 (Super Agent)是一个可以随时唤起的全能助手,其核心优势在于深度的多模态理解与生成能力。用户可以上传图片、视频或音频,并要求Super Agent分析其风格、为其生成营销文案,或基于其内容进行头脑风暴,第一时间响应用户的创作灵感。
基于上述功能, “甲子光年”进行了一番深度测试,直观体现SkyReels 的多模态理解与生成能力,以及无限画布工作流的便利性,发现效果真的惊艳。
打开图像生成器,生成一位老者的图片,输入Prompt:
一个身穿西装、面部表情严肃的老者。
将图片拖拽至视频生成器中,输入Prompt:
老人面带愁容,缓缓向前走。
打开视频延长功能,输入Prompt:
Cut in,老人突然停下脚步,眼睛盯着镜头,严肃的表情逐渐淡去,眼神渐渐柔和,眼角泛起柔和的泪光。
将延长后的视频拖入Super Agent聊天框,让它根据画面内容匹配一段10s的BGM,并给画面配一个旁白,画面底部给出搭配旁白字幕。过程中我和Agent经历了几轮简短的对话,选定BGM的主乐器以及旁白的大致梗概和语种。最终得到这样一条短片:
旁白:Every step carries the weight of memories, every wrinkle tells a story of time.(每一步都承载着回忆的重量,每一道皱纹都诉说着时间的故事)
在整个测试过程中,我们有一个很直观的感受,就是“及时”。用户不再需要被迫“像剪辑师一样思考”,而是平台主动适应用户的思维习惯。用户不用在花大量时间去找到合适的剪辑工具和素材,只需考虑故事的走向。
这也是昆仑万维SkyReels试图得到的境界——用户无需学习AI,只需使用AI。
除通用的Super Agent外,SkyReels还提供超过28个“专家Agent”,每一个都经过特定领域的深度训练和优化,覆盖市场营销、电子商务、虚拟形象和故事创作等高价值场景。
我们让“产品演示视频”的专家Agent生成了一个香奈儿限量版口红的产品介绍。首先,我们用图片生成器生成了一支香奈儿限量口红的图片:
将其拖入专家Agent对话框,输入Prompt,就得到了下面这段视频:
产品:香奈儿的限量版口红。 需求:制作一个20秒的短片,全方位展示产品的精致细节以及色号。
对于几乎没有视频剪辑基础的小白用户而言,只需一次拖拉拽就能做出一条这样的视频,无疑是一次个人生产力的飞升了。这不仅加速了创作进程,更提升了所有用户的产出质量下限,能确保最终成品符合行业交付标准的平均水平。这不只是工具的平权,更是专业能力的平权。
沿续这套逻辑,当Agent系统越发成熟,全新SkyReels 还给创作者们提供了一个更具想象力的未来。当多Agent协同成为常态,用户只需发布一个更高级别的指令,例如“为我们的新产品发起一场营销活动”。SkyReels的Agent团队便能真正一站式完成任务——Super Agent自动将任务分解,委派给相应的专家Agent执行:电商Agent负责制作产品视频,营销Agent撰写社交媒体文案,Avatar Agent则生成数字代言人。这种自主协作的AI创意团队愿景,代表了Agentic工作流的终极形态。
不过,在这个终极愿景真正到来前,SkyReels还提供了一个“中间形态”,即AI模板。
AI模板系统为规模化、可复制的高质量内容生产需求而设计的,精准地满足了营销和电商领域商业用户的核心需求。凭借近10个大类、超过150种模板,让创作者高效地产出商业级视觉素材。
AI模板的使用门槛几乎为零,让用户真正“可见即可得”,只需简单三步:浏览模板广场-选择心仪模板-进入配置页面输入所需文字,点击“生成”即可。于是,我们用AI模板功能给这只小猫穿的白雪公主裙子做了一套换装写真:
经过和Super Agent的几轮交流后,我们将模板中的人类模特换成四种不同颜色的小猫模特,最终得到了这样一套小猫写真集:
整体效果还是非常惊艳,只要你对生成结果不满意,只需将图片拖拽至Super Agent 对话框,表达你的诉求,Super Agent就会给出你想要的答案。
以上种种都表明,全新SkyReels 真正的价值不仅在于提供了更好用的AI视频工具,更在于重构创作流程。作为视频、图片创作的小白用户,这种“所见即所得”的体验确实给我们带来了前所未有的爽感和创作乐趣。而为了呈现真正的“所见即所得”,昆仑万维用了大半年的时间来不断打磨其底层模型能力。
2.拆解SkyReels的技术进化论
SkyReels系列模型虽然发布仅半年,但进化速度却很快。更重要的是,该模型的进化逻辑并非只就单一功能进行打磨,而是在不断提高模型理解和生成多模态内容的底层能力。
2025年2月,SkyReels-V1作为国内首个面向AI短剧创作的开源视频生成模型,在开源领域率先达到SOTA水平,其自研的Human-Centric(以人物为中心的)视频理解多模态大模型,大幅提升视频中人物相关的理解能力。
这套基于视频理解多模态大模型所构建的人物智能解析系统,在影视化的表情识别、人物空间位置感知、行为意图理解、表演场景理解等不同层次的表演上,都能达到“影帝级别”的人物表演。
SkyReels-V2则构建了“语言理解-分层训练-动态优化-无限延伸”完整技术链条,实现了无限时长和精准的镜头控制。
SkyReels-A3作为音频驱动的数字人模型,将“照片开口说话”的效果推向新高度。基于DiT(Diffusion Transformer)视频扩散模型,用户只需要输入参考图像/视频,文本 prompt 和音频,SkyReels-A3模型就能生成长达一分钟数字人视频。
可以看到,此前每一次迭代都补全了视频生成某个关键痛点,而此次发布的SkyReels 则是真正的“集大成者”。
SkyReels V3代表一系列多模态视频生成模型,包括基于图片参考、音频参考和视频参考的视频生成模型。该系列模型都基于同一个Multi-modal In Context Learning框架预训练模型,然后再进行子任务精调进一步训练适配优化。
其中,基于多主体参考图像的视频生成模型,能够依据多张主体与背景参考图及用户提示语,生成情节连贯、符合组合关系的视频。
为增强对参考图像的内容保持能力,昆仑万维构建了完整的数据处理流程,采用跨帧配对(cross-pair)策略从连续视频中选取参考帧,并借助图像编辑模型提取主体、补全背景并进行语义改写,有效避免“复制粘贴”的效果;在训练阶段,还引入图像-视频混合训练与多分辨率联合训练机制,提升模型泛化性能。自V2演进至V3以来,该模型已在多项指标上达到闭源SOTA模型水平。
基于前代SkyReels-A3,昆仑万维正式推出全新的音频驱动视频生成模型则可根据用户上传的音频与图像,生成口型精准对齐的高清视频。
为此,模型采用关键帧插帧范式,支持生成包含不同动作幅度、长达分钟级别的高质量视频。针对超长视频生成,模型首先生成等间隔关键帧以构建整体动作框架,再以关键帧和音频为条件,生成各片段口型一致的中间视频。动作幅度通过调节参考图位置编码与关键帧之间的距离进行控制。
同时,模型还支持复杂运镜组合,通过监督学习相机运动参数,模型能够在同一时间内融合多种运镜效果,并实现不同运镜间的平滑切换。
自动化评估显示,在相同分辨率生成场景下,本模型在音画同步与画面质量方面已接近主流闭源SOTA视频模型,并显著优于当前开源方案。
接下来我们就上手实测一下新模型的惊艳表现。其中,数字人模型和视频延长、风格化模型均在各自领域开创先例。
SkyReels V3 数字人最硬核的能力创新,就是覆盖全场景对口型,支持长达4分钟的连续口型同步。这与早期模型几秒钟的长度限制相比,是巨大的飞跃。此外,它提供了多达32种电影级的运镜组合,让数字人形象更立体,更贴合真实世界。
同时,该数字人模型还是业内首个支持单镜头多人多轮对话的数字人模型,能够仅凭一张包含多人的静态图片,生成一段无缝的视频。在视频中,每个角色都能根据预设的台词,进行自然流畅的轮流发言,精确控制说话的时机和节奏。
于是,我们用SkyReels还原了一对情侣的分手现场:
可以看到,视频中的女生并非僵硬地念台词,而是会随其说话内容的变化有与之匹配的情绪起伏、表情变化,并向人类说话一样有自然的停顿,整体观感非常真实且有代入感。
这项能力突破也解锁了全新的应用场景,能够制作逼真的双人电商直播、生成影视或游戏中的对话场景,以及打造更具吸引力的教育内容。
这里预埋一则彩蛋——根据规划,SkyReels V3将很快实现通过自然语言指令(Prompt)来控制数字人表现的功能。这意味着用户将能够通过“用高兴的语气说话”或“看向镜头”等简单指令,来指导数字人的表演,进一步降低了数字人的生成门槛。
除数字人外,V3的视频参考模型表现也十分惊艳。
视频参考的视频任务包括视频延长,视频编辑和视频风格化。为同时支持三项视频生成任务并控制视频参考成本,昆仑万维实施了多项模型改进。
首先,针对各任务对条件理解的不同,设计了差异化的空间位置编码与任务专属嵌入,促使模型统一学习多任务特性;其次,通过融合Token拼接的灵活性与通道拼接的高效性,在保证生成质量的同时显著降低了总Token数;此外,引入历史增强机制,使模型能够生成长达分钟级别的连续视频。
具体来看,SkyReels V3模型支持下的视频延长功能不只是“拉长时间”,而是通过分析前一个片段的语义内容和用户的提示词,来预测并生成下一个符合逻辑的镜头。模型支持多种电影化转场方式,如切入(Cut-In)、切出(Cut-Out)、反打镜头(Reverse Shot)等,从而能够创造出具有叙事连贯性的镜头序列,而非单调的无意义镜头。
固定镜头,聚焦女人的面部,抬头面无表情地看着镜头:
在视频风格化方面,不同于LoRA等技术风格化时常出现的“闪烁”问题(即风格在帧与帧之间应用不一致)。事实上,视频风格化效果不佳的核心原因,就在于高质量风格化数据缺失。
为此,昆仑万维引入了一套端到端自动化的风格化数据生成与筛选流程,能够深刻理解场景中的物体及其运动轨迹,确保所应用的风格——剪纸、辛普森、钩针毛线、乐高、动森、像素、梵高,可广泛应用于广告创意、动画制作、视觉再创作等场景。在时间维度上保持稳定,从而产出质量更高、观感更专业的风格化视频。
将原视频像素化后:
可以看到,SkyReels V3不仅继承和优化了前代模型的视频生成能力,更通过“无限画布”和“Agent”系统,将图片、音频、视频等多模态能力整合进一个统一的工作流。统一工作流的终极目的,实则还是为了让AI真正从玩具变成工具,赋能更多行业,创造更大的社会效益。
3.AI不止于炫技,更要赚钱
全新SkyReels的发布并非孤立的产品事件,而是昆仑万维“All in AGI与AIGC”公司战略的关键一环。
公司已系统性地构建了一个覆盖全产业链的AI生态系统,涵盖底层算力基础设施,中层算法模型以及多元化AI应用。
具体来看,在算力基础设施层面,昆仑万维通过控股AI芯片公司艾捷科芯,完成了AI生态的底层布局。艾捷科芯采用7nm+Chiplet工艺,其SRAM数字可重构存内计算芯片能效达2238TOPS/W,支持千路4K视频流处理,紧密契合昆仑万维的视频战略。
在算法模型层面,昆仑万维自主研发的“天工”系列大模型已发展至4.0版本,包含多个针对不同应用场景的子模型,在逻辑推理、多模态处理等方面有显著提升。
在应用层面,昆仑万维构建了丰富的AI产品矩阵,覆盖办公、创作、娱乐、社交、游戏等多个场景。其核心产品包括:
AI智能助手:2025年5月22日,公司面向全球市场同步发布天工超级智能体(Skywork Super Agents)。天工超级智能体采用AI Agent架构与Deep Research技术,具备一站式生成文档、PPT、表格、网页、播客及多媒体内容的能力,在GAIA评测中凭借82.42的高分位列全球榜首,正式开启“AI Office智能体”时代。
AI音乐与音频:Mureka音乐生成平台,年化流水收入ARR达1200万美元,覆盖全球100多个国家。
AI社交:Linky AI虚拟角色互动平台,累计下载量突破2000万,在31个国家和地区的社交类下载榜中位列前十。
AI视频:SkyReels平台,集成了视频生成、图像创作等功能,支持从剧本生成到影片合成的全流程创作。
AI游戏:《猫森学园》也正在研发测试中,将结合AI提供开放世界校园生活模拟游戏体验。
在这个宏大的生态版图中,SkyReels 在扮演着至关重要的角色,它是将公司在多模态AI领域的深厚研发投入商业化、并触达全球用户的核心载体。
这一战略已经开始显现出商业价值。公司近期发布的三季度财报显示,2025年第三季度,昆仑万维实现营收20.72亿元,同比增长56.16%;归母净利润1.9亿元,同比增长180.13%。
这些数据有力地证明,昆仑万维的全球化布局和对AI的坚定投入,正在转化为实实在在的财务表现。 不过,尽管能让自己赚钱的企业,足以被称为一家优秀的企业,但能让更多企业和自己一起赚钱的企业,或许才能被称之为伟大的企业。SkyReels凭借其专业化和商业化的明确导向,无疑会更快将公司逐渐推向后者。
此次,SkyReels 中加入了“AI海报”和“虚拟试穿”为代表的平面设计功能,在视频内容创作之外打开了一条全新的商业路径。
AI商品海报最实用的一项功能是,能够支持海报中文本的编辑。海报上的标题、卖点、价格等所有文字均可灵活编辑,完美贴合营销节点。
这个看似简单的功能,却是一项意义重大的工作流创新。营销人员面临的一个主要痛点是,AI生成的图片一旦完成,便难以进行微调,尤其是文字修改(如价格变动、促销信息更新)。任何微小的改动都意味着需要重新生成整张图片,结果往往不尽人意。SkyReels 允许用户在生成的海报上直接、灵活地编辑所有文本元素,将AI素材从静态的“一次性”产出,转变为动态的、可复用的模板。
此外,SkyReels 还支持SOTA级别的虚拟试穿。更重要的是,它支持多件服饰同时试穿(例如上衣和裤子),并能通过AI自动推荐“套装”组合。
原图:
试穿图:
这一功能直接与清晰的商业指标挂钩——提升客单价,展示了技术如何直接服务于商业目标。
这两项针对平面设计推出的全新功能也意味着标志着SkyReels系列模型正式从一个视频生成工具,进化为服务于更广泛商业场景的一站式创意平台,赋能更多企业、甚至行业完成数字化转型。
更利好的消息在于,昆仑万维此前的全球化布局,已经给如今技术和产品的落地铺垫了足够的充分的市场基础。昆仑万维此前发布的三季度财报显示,公司实现海外业务收入54亿元,同比增长58%,海外收入占比达93.3%,同比提升3.6个百分点,国际竞争力持续增强。
如今,昆仑万维SkyReels的发布也很好地切中了AI视频市场当前的重要拐点,有望撬动更大的应用市场。“为技术而技术”的时代已经告一段落,未来属于那些能够可靠、高效、规模化地融入专业工作流,以解决真实商业问题的平台。SkyReels 则给这个新范式,按下了启动键。
(封面图来源:昆仑万维)
END.
精彩评论