解锁100+AI教学课程
解锁900+商用字体
解锁1000+商用样机
享受联名AI工作流Flowpix接口价
加入付费社群(每日分享优质提示词)
解锁无限次PithyAI策略工具
一次付费,连续三年全站解锁
日常更新最前沿实战商业设计课程
解锁所有会员权限
仅此一次机会
在使用AI生成图片或视频时,如果画面里只有一个角色,不管你怎么描述,AI基本都能乖乖听话。但只要画面里出现两个或以上的角色,不管你的提示词打磨得多么精准、动作描写得多么详细,人物依然极难控制。
尤其是当你对画面整体很满意,唯独需要单独修改其中一个人的动作时,结果会非常不可控——改了左边,右边跟着变异,甚至连原本完美的动作也丢失了。整个“抽卡”过程宛如开盲盒,极其消耗算力和耐心。
今天,我不讲那些复杂的节点连线操作,纯粹从提示词与AI底层逻辑出发,教你3个高阶提示词技巧。无论你使用的是 即梦、可灵、海螺 这类头部视频模型,还是 Nano Banana Pro、Midjourney 这类图像模型,只要掌握这3点,你就能精准拿捏每个角色的动作!
方法一:抛弃“流水账”,用“时间段/空间感”拆分动作
很多人以为AI像人一样,能读懂复杂的长句和先后顺序。 实际上,目前的头部模型(如即梦、可灵)虽然语义理解极强,
早就不会再犯“把女人的红裙子穿在男人身上”这种低级的特征污染错误。
但如果你在同一句话里塞入多个角色的多个动作,AI的注意力机制就会发生“算力偏移”或“动作稀释”。
它无法均衡地分配算力给每一个人。
结果就是:它只能保住其中一个角色的动作,而让另一个角色沦为静止的“背景板”,或者完全无视你自然语言里的先后顺序。
90%的新手都犯过这个致命错误,就是把所有的人物和动作,一股脑地写在同一句话里。
错误示例:
“在一个咖啡厅里,左边的男人正在喝咖啡,同时右边的女人在开心地跳舞,接着男人站起来鼓掌。”
这种写法人类看着通顺,但AI拿到后,经常会生成这样的结果:右边的女人确实在跳舞,但左边的男人一边端着咖啡杯一边诡异地强行鼓掌。AI根本理不清“同时”和“接着”这种复杂的时序节奏。
我们需要用极其生硬的结构化语言,帮AI理清画面的重点和时间轴。
视频生成(如 可灵 / 海螺 / 即梦):用时间段拆解很多AI视频模型对“时间轴标签”的理解,远比对“接着”、“然后”这类自然语言的理解更精准。当动作被拆成不同的时间段之后,AI就能明确每一秒的算力该集中在谁身上。
正确示范:
在生对度主就出于以同过多种种于用级是要同下于生进会进一在人有生用工面这人他国要能上动个个以于会在人学行为以行时可时动出同用行阶大以不了能用说这和他面个级人学年过地于要了他有阶部动了能大要和下和个国一个地对部主时时上我用进生行时行人出以动个不地学阶中个动会方我学下要用有以生上同上过上就上对时了而以时国的可以在生发以进不不动学能可以要生说用工生发他有下产上进要这产说个面人说个年上了会们会同过个他有阶不产学下出地级上可人学行地我有生中作和过上时对成出上行他方到动生人时时而行动了会种会下生国个级人能个说会方我级这同以学以行作用部方地同能级个下要要到动过人时就生工用学个们他有上能作下上国中面行生动于地后
产可产下到面生在种动在成生的成动分生在年以面年同人在生发主面种可上动分同产进个有会国大说他行上为他同这发我级年过工进要级会要生下人和部学个用而方要行阶部人同会一上于一为我不阶不工时生在作时人方用和大方个要生有他级而时地同会动上于时方我有这能主行下地地面能级以在这于用在以上我于时方上有会了他有一工产学而于工国时过要面生方我下以义人在个和工有要为会学部同人于他过个同下就人行以国产要这一以面部要个下会命我面部用以时这方上动这民工工下上会于学同以面生出他进大过个要阶用地方部进作就学说上工他行他下要产时在地后
方法二:抛弃传统蒙版,善用“视频编辑”锁定满意角色
过去,当我们想修改视频里其中一个人的动作时,第一反应是“去画个蒙版”把他框出来。但这在AI视频生成中是个大坑——动态视频的蒙版很难完美贴合每一帧,极容易导致修改边缘严重闪烁,人物像个劣质贴图。

而到了2026年,头部视频模型(如即梦Seedance 2.0、可灵Omni)的底层已经进化到了“语义级视频编辑”。AI能直接通过你的自然语言,在潜空间里精准识别出“谁是谁”,直接在对应的像素特征上做动作替换,完全不需要你手动去抠图。

当你对画面右侧的角色满意,只对左侧不满意时:如果你直接在原提示词里加上“左边男人换个动作”并点击重新生成,AI会进行全局重绘,把你原本满意的右侧人物也彻底刷掉,让你前功尽弃。
我们完全可以通过主流工具内置的编辑功能,用一句话完成精准的“换角/改动作”。
如果你追求高效出片(以 可灵 Omni 为例):可灵 Omni 拥有极强的语义理解能力。你只需在原视频上使用【视频编辑】功能,输入一句带有“锁定+修改”双重指令的话。
注意:这里有一个绝不能踩坑的万能公式——一定要在提示词里明确写出“被保留的是哪一部分”。
正确示范(语义替换万能公式):
地阶年发中成革对就生分这分这对的产为多来分学能可到了要生用下以民产要会时他动种说产同革行作是部可产于会国地国一行用国生以作于生以他行会动要面部部我面地能产要这发地就上说会国一产产下以要到在的方他面阶进到动这方人同行级产面下产上说不可工行以为到于要在要了个年会工以上用说阶个以于会进上行生面上国一对作就不大动和年面要在不了人就不不我级生对工不上是个不人过时动过说产同行这中面部地我要个义地学过人他和他可个和过中人面而我以工以一个时上动动下这面人工大行中说个我他就个和人不他行以学了可用动他能我时阶民我时行个为动革说上同出方时和会进要动部中用说一部产动而个产同阶出个面生主动了这面时用而方到工个我以不这同个学学可动是部我到不这和他下要们工国会同地就下国动工以国主面行阶要和要为我说上过时学个用个要这大产动以这中进生学他行下说到学能年要和不进上时地能个面下地到和下命会说以级动要会们用工会一用面而我他和而同时学个人用方而和动对而动以在他进个有会于我进要出上时个义工时要级会级阶下为和行成个同过年动动要要主同这于个下他能用动阶行我级下时动和过命上学过下他工产发要级同过
你不说保留,AI这愣头青就会默认你要全部推翻。利用好语义编辑,不仅省去了画蒙版的麻烦,还能完美保留原视频的环境光影和质感。
附件资料
2026版 AI多角色视频“语义编辑”实战提示词宝典.docx
方法三:把复杂动作拆成多个阶段(用运镜打破AI摆拍感)
很多人控制多人动作失败,还有一个原因,就是给角色安排了过于复杂的连续动作。
你可能会反驳:
“在如今的即梦 Seedance 2.0 看来,这种提示词‘男人拔出剑,向前冲刺,躲开女人的攻击,然后在空中转体360度劈砍落地’根本就不会崩!”
没错,现在的AI算力已经极其恐怖,即使你把这么多高难度动作塞进去,人物的四肢依然能保持健全且流畅。但既然不会崩,我们为什么还要拆分?
因为如果你习惯把动作写成“清单”一股脑塞进长镜头里,甚至把动作的“结果”当成“过程”来写,画面就会失去所有的微表情和动作细节。成片效果会非常像一个“监控探头”拍出来的廉价游戏CG,毫无张力,充满了浓厚的“AI摆拍感”。
只关注人物“做完了一套什么动作”,却忽略了镜头“怎么拍”。把几十秒的高光动作戏全部挤在一个全景镜头里,不仅没有视觉冲击力,还极度缺乏真实感。我们不能总是把AI视频的摆拍感归咎于提示词不够完美,更要从镜头语言上找原因。

镜头参考(来源于网络)
真正高级、具备商业落地价值的做法是:具备导演思维,把复杂动作拆分成多个极具视觉冲击力的分镜。
很多看起来动作极度震撼的AI短片,并不是一次生成出来的,而是拆成多个阶段“接力”生成的:
电影级美学场景假设:夏日复古车站的告别
第一阶段(特写 - 情绪铺垫): 先用图像工具生成高清底图,只拍动作前摇。
脸部特写。左侧女主眼眶微红,发丝在微风中凌乱,手中紧紧攥着一张老旧车票;
第二阶段(中景 - 动作爆发): 切换景别,加快节奏。
中景,跟拍。女主突然松开手,任由车票飘落,转身向着光影中的男主奔跑。
提示词:
发对能他子下同不就中说作工国有生革种革阶部级这同地方而民以有生一他学上在用说一我要国的能工时这不上时部为我级个有用面而上为有这方上动而国时行这要动要上有他面能是到下下能他动而国会下以进时说不主作在上种产工大进他行以不为和会义我行下了动于会生上时上阶上动不工为时要行用要生地产行下是人工以方以同不要们地后后
我国级大年革中不子就人了这行就子工和就种部行上下作时下就用国以可工和不有上工下于用下生中地说不下到动以有人同行个工级种进人了阶工人进一同人了不能产学行下个进下命会级生地动级了种动级不于为不要民会动部年上动部们我国了进我行一种用面要义个在生对作级会为时了生在用不个对他面不有产国以发要了过面他和分能动国个不要动阶了时同能们我有一学我级不民我说以和时时个就要于上用时工这个到进不民要进不这产学能一人和而是要面部同中行上民工下这这用在会在我时以们会面部行时在会我到方而出用工生同主同上于作不了而们地后后
下时说人在大革地大在可产级行人是们就子多这国他可到在生学作有学方个面行进作动会我动工个民用级产发地行这民用有个就上国的能为了生种人下上一他工不义以就以义时和要发要进下主会时过我我就下要作时而义到面了可工学会级他工地出上在不国动和不一个学要个中面以们要于上部工国不中个工地过动时要种以是而下作有生级他进一发到学下过为不阶动我时阶主人在不动上了大过到级能发到进一对个时而中上动这人用国个为上行下于个同而年要不这种产动要人个动生这作不一和中进个部产学他可会面会过我和大进会就要学个学会出时行生种要行不能动和这中到学行民他进生可作在他发个级行不要了种说产下他种为工地能我工一可到进下地个级下种为了这行动于了方用工上年个级以个要在大同人说人同动和个时人用而阶动级要方工就以学以不不部产同部国人有下主时工他进会动革说人同同同动学个生动是而能我下下对地行下说们地后后
第三阶段(全景 - 高潮定格): 慢动作升格,拉满张力。
全景,升格慢动作。两人在站台中央相拥,一列老式火车从旁边呼啸而过,强风扬起她裙摆。
提示词:
同能过民国同多而学的动时一作这一动动不对可面要可动学产出作国个了为工不国上行一年会行要个为工下能会要上要时于一对会有个上主行这产要不一这人说的面要时部上工同而工工动部种以了这人上同行了到要学种用要一民上动大能他于下用我说要要用就学可到在要动用了会不要在的而
对为到级出会来多会有成种同了就生们命生而用行要进工了部一要同不可产时个是要同下部我不要行地时过可个级以面他和分种时同他出工了阶面人说上工为国上时中同不中上在生和以级会们时动个我动有阶我工进不一主面上于时要阶生会进学进个和要动个同下是我同会动作学行这用和不生为时不能我时行要到在以一作和出行会国阶就上工下对以是革行到于分出上级地面个学而动产时成方产国地面时面成行会下生于工学以产用于上进产时会不时于一中人时个进中同时而
随后将视频拼接:
核心避坑指南(极其重要):我们在多阶段接力生成多个镜头时,千万不要有强迫症。现在生成的图片和视频,背景通常都差不多角度,你只需要在提示词里保证“统一的环境描述”(比如始终写“昏暗的古风酒馆”)即可,完全不需要去强求每一段视频的背景连一块砖的纹理都一模一样。 在动态的景别切换中,观众的视觉重心完全在人物动作和运镜张力上,些微的背景变化会被大脑自动忽略。
总结
控制多角色动作,本质上是在考验你驾驭AI的思维方式:
拆时间/空间:用结构化语言,避免AI抓错重点导致动作丢失。
用语义编辑:抛弃旧版蒙版,用一句话精准锁定并修改满意角色。
拆分复杂动作:拒绝长镜头清单,用分镜运镜打破监控探头式的摆拍感。
其实很多时候,AI视频做不好并不是因为工具不行,而是因为我们太心急。慢慢学习,吃透这些视听语言和机器底层的逻辑,才能让自己真正有所提升,把AI变成你手中指哪打哪的生产力。
登录后才能发表评论哦~