“参考生”之王回归:Vidu Q3持续进化,剧张力拉满|甲子光年

告别“抽卡式”生成,如何让AI学会讲故事?
作者|Iris
编辑|栗子
短剧圈的 “抽象整活” 含量还在持续升高,近期风靡短剧圈的“性转版”二创,将曾经观众熟悉的角色转换性别,进而迸发出了不一样的火花。
这也让观众常看常新的宫斗剧教科书《甄嬛传》,再次成为网友的新晋 “电子榨菜”。一部由网友用AI视频技术二创的性转版《甄嬛传》短剧——《男嬛传》刷爆网络。
在《男嬛传》中,全员角色集体性转——皇帝四郎变身为坐拥后宫富婆四娘,宠冠六宫的华妃化身建模完美的霸道华君,甄嬛成为温润有才、心思通透的甄郎,隐忍柔弱的安陵容变成多才多艺的体育生,而皇后则一改之前的深沉谋断……
果然,之前人类对《甄嬛传》的开发还不足百分之十。
从质疑胖橘、理解胖橘到成为胖橘,原来被美男包围的后宫爽剧竟如此令人上头,《男嬛传》也让女性观众体会到了胖橘的快乐。性别反转带来的人设反差与叙事新鲜感,迅速成为短剧与二创热门流量密码。

图源:《男嬛传》
这类高热度人设与角色范式的快速传播,印证了当下视频内容创作的核心需求:角色稳定、风格统一、叙事可复用。
而这正是AI视频的“参考生”能力所解决的关键痛点——通过对人物、场景、服化道的精准参考与一致性生成,让爆款人设、经典角色、热门风格能够快速落地、稳定复现,真正支撑起短剧、漫剧工业化生产的效率与品质。
国产AI视频公司生数科技是“参考生”的首创者。
早在2024年7月,专注多模态大模型及应用自主研发的生数科技,就推出了中国首个视频大模型Vidu,并首创“参考生”图片/视频概念。
近期,Vidu Q3正式上线了参考生视频,并围绕特效、音效、场景进行了全面升级。Vidu Q3依托自然语言即可实现粒子、流体、动力学、运镜、转场、光影六大特效的灵活调控,并构建起包含环境、动态、氛围、拟音、情绪等五大音效在内的全景音效体系,让听觉表达具备完整叙事连贯性。同时针对短剧、漫剧、影视剧、广告四大核心场景完成能力深化,可直接作为商用内容单元融入真实制作流程。
在全球首个参考生视频榜单SuperClue上,生数科技的Vidu Q3同时登顶多图参考总榜和单图参考榜。此前,刚发布的Vidu Q3,就登顶了国际权威 AI 基准测试机构 Artificial Analysis榜单。


在一众AI视频玩家中,生数科技凭借先发优势,牢牢站稳行业核心位置——“为剧而生”的Vidu Q3不再只提升单一内容生成能力,而是围绕一个核心方向发力:让AI内容,真正拥有支撑剧集呈现的表达能力。
“剧”的表达能力,在于关键剧情的起承转合、音效特效的精确运用和视听语言的自然调度。模型能力的溢出,让AI内容能够进入行业工作流,在降本增效的同时,为不同场景视频内容带来更多可能性变量,改变内容生产范式。
经测试,Vidu Q3在漫剧、短剧、广告等场景中表现稳定出色,能够在保持高质量内容输入的同时降本增效。
作为“参考生”首创者,Vidu Q3通过业界领先的“参考生”能力和沉浸式的视听效果,完成了从生成画面到讲好故事的突破,节奏、情绪、叙事一气呵成,全面提升视频片段的“剧张力”。
这也暗合了行业的精品化升级趋势:在生产端内容极度供大于求的今天,行业亟需的不再是量的堆叠,而是制作更加优良、叙事更加清晰完整、剧情推进与镜头节奏更加自然的精品内容。

注:Vidu Q3的“参考生”功能演示
1.为剧而生,剧张力拉满

前一秒还是寒窗苦读的穷苦书生,下一秒就穿越为权倾朝野的高官权贵;从食物链最底端的赘婿,运筹帷幄完成令人意想不到的完美逆袭……
从赘婿爽文、玄幻修仙到穿越重生题材,市面上不同题材爆款短剧,都有一个共同的取胜之道,凭借紧凑的剧情节奏、意外反转的戏剧性情节,紧紧抓住用户的眼球。
换句话说,叙事能力是短剧质量的重要分水岭,也对AI内容的表达能力提出了更高要求:如何让AI内容适配戏剧张力极强的行业场景,从而使生成内容更富有张力,更接近成片级表达?
为了解决这一行业痛点,生数科技首创了“参考生”能力,并实现高效快速的升级迭代。
在2025年9月,生数科技就推出了Vidu Q1参考生图功能,以支持7张参考图输入打破国内生成上限,并在一致性、还原度等关键指标上正面对标Nano Banana;2025年10月,生数科技完成Vidu Q2的迅速迭代,Vidu Q2的“参考生”,不仅持续保持高一致性,还在生成速度、价格方面进行全面优化。
近期,Vidu Q3跨越式升级“参考生”能力,并将参考范围扩展至主图、场景、服化道。
这一“万物可参考”的能力,赋予普通创作者专业表达能力,让“参考生”不再只是提升一致性的工具能力,而是升级为一种内容生产范式。
同时,Vidu Q3也将特效、音效拉升至专业级电影质感, 叙事能力与剧情表现力拉满,完美适配不同场景的多元化表达需求,直接让Vidu Q3逐步深入漫剧、短剧、影视剧行业的工作流,并承载更强叙事需求,内容的故事性和细节接近院线级效果,在讲好故事的同时,让创作真正实现一镜到底。
万物可参考,成片更能打
这项能力的可玩性极强,用户既可以让不同时空的人物同台飙戏,生成搞笑片段,也可以选定特定的背景和服化道,生成以假乱真的电影质感大片。
例如,用户可以选择特定的女团服装和舞台场景参考,生成一段唱跳C位舞台片段。

以图1女生和图2服装为参考图,输入提示词:“舞台灯光亮起,图1女生穿着图2中的服装,手中握着图2里的吉他站在舞台中央。她猛地抬头,音乐瞬间爆发,身体前倾,开始激情演唱”,就可以得到极具感染力和观赏性的女团舞台现场,聚光灯下,女生的发丝清晰可见、随风舞动,脸部表情和弹吉他的动作都自然流畅,让普通用户也能实现自己的女团唱跳梦想。
值得一提的是,“参考生”能力支持角色、场景与视觉元素的可复用建模,使得创作不再依赖一次性生成,而是可以像搭建素材库一样进行组合与复用。
再看一组典型的参考生案例。现在我们给Vidu Q3三张参考图,分别是少女、骏马和森林。它会迅速生成少女骑马穿梭于森林中的素材。



再加入背景音乐及人物对白的提示词,即可输出电影级片段——少女骑着骏马在林间小径缓步前行,温暖且空灵的音乐与森林的宁静氛围完美相融。

特效音效全面升级,完美适配应用场景
另外,为了丰富成片的叙事形式、强化视觉冲击力,Vidu Q3升级了包括粒子、流体、动力学、运镜、转场、光影在内的六大特效能力。
通过粒子、光影、镜头、转场及合成等多类型特效的组合应用,能够更自然地表达情绪变化、剧情推进与镜头节奏,使生成内容更接近“成片级表达”。这让生成内容有了更多细节质感和现场感,有助于烘托剧情变化和环境氛围,最大化提升观众临场感。
现在我们给Vidu Q3另一组提示词,来测试其特效能力:“基座上的外星神器释放出一个环状能量波。波环迅速扩大,半透明青色,内部有电弧,在地板和墙壁上产生强烈辉光。冲击波涟漪效果,高对比度泛光。”
这看起来是一个较为简单的场景,但它同时挑战了目前视频生成模型最弱的4项能力:规则集几何结构的时序稳定(圆环)、多层动态特效同步(环+电弧+辉光)、全局光照/反射的物理联动,以及高对比发光体不穿模的能力。
一起看看实际完成的效果:

这里尤为值得注意的是,在这个视频中,电弧是典型的高频随机细节,而环状能量波则是低频规则运动,电弧+能量环的动态耦合极难同步,但从Vidu Q3生成的视频来看,它完美地约束了多层动态特效叠加的时序。
另外,音效作为叙事的另一种重要形式,也是Vidu Q3本次重点升级的能力。更加真实的音效,才能为观众带来身临其境的沉浸式体验,全身心投入地享受戏剧冲突。Q3 强化了环境音、氛围音与整体音效平衡能力,能够支撑对话、情绪变化及场景转换。这使生成视频不仅有声音输出,更具备空间感与情绪承载能力。

注:Vidu Q3的环境音效演示
例如,风声、雨声、城市噪音、森林声等环境音效可以用于营造空间感和沉浸感。流水潺潺、枝叶簌簌,间或传来几声鸟叫,这样的森林声让人仿佛置身于广袤无际的原始森林,耳畔大自然的声音和眼前的画面融为一体,全身心的沉浸式体验让观众在不知不觉中进入创作者预设的叙事环境,更有助于叙事的连续性。
除此之外,这次的音效升级还包括衣物摩擦、开门、拿取物品等细节动作音;激光、能量波、未来设备声音等科幻音效; 脚步声、打斗声、物体碰撞、爆炸等动作音效。这也为短剧、漫剧、影视剧及广告等不同类型场景的内容制作提供更多选择。
Q3的多维度能力升级,不止停留在抽象场景,而是围绕短剧、漫剧、影视剧及广告等核心场景进行优化,能够满足不同场景的具体内容需求。视频模型能力不再是无法商业验证的空中楼阁,它逐渐进入多元化内容生产场景的工作流,产出可用性与可交付性较强的专业级内容,用电影级的镜头语言,讲好每一个动人故事。
值得一提的是,这一升级,是从底座模型,到产品全家桶的全面提升。
随着Q3参考生这一能力升级,Vidu Q3 已完整覆盖文生、图生与参考生三大能力,打造了「Q3全家桶」。在模型能力持续完善的同时,Vidu Agent、Vidu Claw 等产品也已全面接入模型的核心能力,并进一步简化了用户的操作流程,零基础创作者也能快速上手,不用钻研复杂指令、不用搭建繁琐工作流,就能实现专业级视频生成,真正做到易用、好用、实用。
2.万物可参,声画同出,释放AI内容生产力
在持续提升模型和产品能力的同时,生数科技也在积极探索与漫剧、短剧、影视剧、广告等行业的落地合作,释放AI在现实场景的内容生产力。
在AI极大释放内容产能的当下,这些行业也逐渐形成了鲜明共识:当AI工具日趋普及,生产效率的天花板已被普遍推高,单纯比拼产出速度与数量的时代已经过去。当前行业的竞争已经从“谁能做”进入“谁能做得更好、更稳、更快”的新阶段。
真正的效率革命,应体现在精品内容的规模化输出能力上,这需要从底层技术逻辑上,解决传统工作流中的不确定性问题——这正是生数科技持续与行业伙伴共同探索解决的痛点问题。
能够进入工业生产流程,为内容生产降本增效的,是通过结构化生成取代黑盒式抽卡的高度不确定。这要求模型不仅能理解单次指令,更需建立对角色、场景、风格等核心元素的持续记忆与控制能力,使制作过程从随机生成转向可控创作。
生数科技的解法,是让多模态AI技术真正落地产业侧——通过与头部企业深度共创合作,推出标杆性的行业解决方案,为工业化生产提供坚实技术底座。
例如,在AI漫剧行业,生数科技与万兴科技合作推出“万兴剧厂”,破解漫剧行业难题,实现跨集一致性突破,抽卡精确度翻倍、分镜可用率达80%。这样的深度共创,大幅降低制作成本与周期 ,实现AI驱动内容工业化生产 。
院线级生成能力,领跑短剧、漫剧、影视剧场景
这里我们用一组过肩镜头看下Vidu Q3在漫剧中的能力:

我们可以看到这是一个典型的“强构图、强空间关系”镜头,视频中的要素以“近景肩”、“中景人物”、“背景”三者组成,在镜头移动的过程中,三者的相对位置、透视、遮挡关系必须全程保持恒定,这对模型空间锚定能力要求极高。
另外,虽然这是一组过肩镜头,但视频中的近景人物并不是全程保持“绝对姿态锁定”——而是伴随镜头平移,头部姿态略微上下移动,更加贴近物理世界中的实际情况,值得一提的是,在给到Vidu Q3的提示词中,并没有包含这点,但它在生成视频时却考虑到了这个因素。
再来看下Vidu Q3在真人短剧生成上的表现。

首先,需要说明的是,在给到Vidu Q3的参考图片以及提示词中,都没有体现庭院场景中的空间透视与元素构图关系,但它很好地补齐了这一部分。

注:上面真人短剧的参考图
其次,雪花这种半透明高频粒子,是视频生成模型中最容易闪烁、断裂、穿帮的元素,而从生成的视频来看,雪花与人物、地面的交互逻辑完成的非常自然。当雪花落到人物的头发、肩膀时,既没有无缘无故地消失,也没有被人物的走动带飞。
值得一提的是,在这组镜头中可以看到,无论是小姐的豁达,还是丫鬟在提醒时的小心翼翼,其自然情绪、语音和口型的同步,都表现出了极高的水准。
深耕电商、广告行业场景,一键解锁商业大片质感
在漫剧、真人短剧和影视剧场景之外,凭借在参考生赛道的持续沉淀,生数科技也突破了电商、广告等对一致性要求极高的行业场景。他们调研发现客户对商品视频细节零容忍,因此将“参考生”功能进行了针对性的升级,可实现镜头切换下商品、主角细节一致,360°精准展示且效果逼真。

比如在这一组广告视频中,一名模特在使用唇釉产品,由于需要展示唇釉质感,我们给到Vidu Q3的提示词中包含”唇部特写镜头“,可以看到Vidu Q3完美平滑地完成了镜头的切换,而当模特念出“This touch is more than just color”的广告词时,镜头以唇部为中心,同步拉回到全景,在整个过程中,唇部的细节没有发生任何变化,这足以看出Vidu Q3在广告场景中的高度一致性。
针对漫剧、短剧、影视剧、广告等行业用户,Vidu MaaS提供一站式商用级 AI 视频服务,支持零门槛快速接入,成本仅为行业平均水平的三分之一。在切镜衔接、运镜流畅度方面高度自然,内容生成速度优势显著。平台可根据客户需求提供提示词优化、定制化工作流适配与专项技术培训,即便在业务高峰期也能维持稳定流畅的使用体验。从创意构思、视频制作到实际场景落地,用户均可依托统一的能力底座,实现全流程更完整、更高效的内容生产体验。
从胶片感光成像到数字智能渲染,从光影实景拍摄到AI 虚拟造像,随着视频技术的不断发展,视频制作门槛也不断降低,每一次技术的突破都会带来内容生产的爆发与生产模式的重构。AI视频在进入漫剧、短剧、影视剧、广告行业的工作流,实现降本增效的同时,也在探索一种面向未来的、可规模化的新型内容生产模式。生数科技等AI视频厂商所提供的,是一套正在成型的新影视工业的基础设施,它也让艺术创作更加回归本质:当技术能够稳定地理解执行,将创作者从繁琐的执行中解放,创作的核心价值将重新聚焦于创意本身。
(封面图来源:生数科技)
关注公众号「甲子光年」
即可获得专属邀请码
体验Vidu Q3

