AI短视频工业化生产方法-使用ai生成视频连续脚本的skill

需要讨论的关注公众号，加微信讨论吧。
效果测试如下：
通过此脚本目前通过ChatGPT生成视频提示词。然后通过火山引擎豆包大模型的seedance1.5 pro进行视频生成。
另外配套了一套API接口和视频管理预览等线上服务工具套件。

成本：
消耗token大概是每天生成20条12秒左右的视频。日消耗500万token。按16元/百万toke价格计算，每天token成本约80元，单个视频约25万token，一条12秒视频成本约4元。

目前短视频流量效果如下，日新增播放量稳定在2-10万左右。

以下经过一段时间测试后的skill对话记录：
我现在需要你帮我解决一个问题。

我要使用ai生成视频，但是现在视频模型只能生成12秒。
一段提示词就是一个12秒的视频。但是这些模型没有连续记忆。所以我需要规避模型的问题。
1、每次最长12秒。
2、一段提示词里如果有多个人说话可能对应不上人，所以每次生成只能是一个主角有对白。
3、每次生成都是全新提示词，如果想要串起来就要保持每次提示词都带全局背景信息。
4、视频要考虑下一个视频拼接的转场，不能结尾留白很多。
5、要在每段提示词都有简单但完整的对白，单一人的。

经过测试我觉得是一个故事线要按照每个主角的对白来单独生成一段视频，这样保证这个主角的形象和对白都是一个人。

类似分镜拍摄，但是我们提示词要是分角色拍摄。
要想复用多次生成一个演员形象，就要在提示词每一个都详细描述当前角色单的人物形象特征。

尽量是12秒内将一个演员的对白片段都生成好。

其他的会根据视频内容再进行补充，注意每个视频与下一个视频的衔接。

给我整理一下这段话。

根据ai回复进行调整。

对话：

可以，现在给我生成一个脚本，直接可以每个提示词复制的

对话：

生成一个新的4段故事，每段放到一个复制框里。

对话：

现在这个太复杂，有些会生成失败，导致无法串联。
尽量控制内容再800字以内。人物形象要搞笑一点比如35岁的老头程序员这种。
另外要加一个机器人在里面，说明未来的场景非现实场景。

对话：

挺好，再来一个，这次改改风格，一个人指挥一群机器人的场景。

最后调教的skill，生成爆火短视频的ai技术。如下

好，我把你这套方法压缩成一个真正可执行的 Skill（工程规范版），重点不是描述，而是流程 + 约束 + 避坑规则，以后你可以直接当生产标准用。

这是精简但完整的版本：

Skill名称

12秒AI剧情视频生成Skill（无记忆模型适配版）

Skill目标

稳定生成可拼接的12秒AI剧情视频，解决模型无连续记忆、多角色错乱、生成不稳定问题。

核心原则（必须遵守）

1每段必须独立完整

（模型没有上下文）

2每段只能一个说话角色

（避免人物错位）

3每段必须完整人物描述

（保证角色稳定）

4每段必须完整场景描述

（保证环境一致）

5对白必须短且完整

（避免截断）

6结尾必须有动作

（方便剪辑拼接）

7不要复杂剧情

（降低生成失败）

8不要未来科幻世界

用：

现实世界 + 机器人

成功率最高。

标准生成流程（固定步骤）

按这个顺序生成：

Step1：

确定单一主角

不要：

两人对话。

要：

一个人说话。

Step2：

写死人物标签

必须包含：

年龄

性别

外观

职业

气质

例如：

30岁男性

短发

黑眼圈

普通程序员

这样模型复现稳定。

Step3：

写死环境

必须具体：

不要：

办公室。

要：

普通公司办公室，电脑，绿植，打印机。

环境越具体越稳定。

Step4：

加入机器人

规则：

机器人是工具角色：

不要：

机器人主导剧情。

要：

机器人辅助或回应。

否则容易科幻化。

Step5：

设计简单动作

必须：

坐

看

走

叹气

点头

不要：

复杂表演。

否则容易崩。

Step6：

写对白

规则：

20–50字最佳。

不要：

长台词。

必须：

一句完整表达。

不要半句。

Step7：

设计结束动作

必须：

叹气

沉默

看镜头

转头

关电脑

避免：

镜头停住无动作。

否则不好剪辑。

提示词结构（固定模板）

必须按这个结构：

生成12秒真实摄影风格AI视频。

【场景】

现实环境详细描述。

【角色】

单一人物完整描述。

机器人描述。

【镜头】

中景。

纪录片风格。

【动作】

简单行为。

【对白】

单人完整台词。

【结尾】

自然结束动作。

必避坑（关键）

坑1：

多人说话

→ 模型随机分配。

解决：

单人对白。

坑2：

人物描述不一致

→ 角色变脸。

解决：

每段重复人物特征。

坑3：

环境写太简单

→ 场景漂移。

解决：

写具体物品。

坑4：

剧情太复杂

→ 生成失败。

解决：

一个事件。

坑5：

对白太长

→ 被截断。

解决：

短句表达。

坑6：

结尾没动作

→ 剪辑断裂。

解决：

设计收尾行为。

坑7：

科幻描述太多

→ 风格跑偏。

解决：

现实环境 + 机器人。

不要：

未来城市。

最优内容结构（成功率最高）

推荐公式：

日常场景 + 小冲突 + 机器人理性回答

例如：

加班

工资

股市

客户

县城

摆摊

这是最稳定结构。

一句话核心方法

你的方法本质是：

把AI视频从“电影叙事”改成“人物采访片段”。

不是故事。

而是：

真实瞬间记录。

这样生成成功率最高。

最终生产流程（工业版）

固定流程：

选话题

↓

选一个主角

↓

写人物标签

↓

写现实场景

↓

加机器人

↓

写一句对白

↓

写结束动作

↓

生成视频

↓

剪辑拼接

这是完整流水线。

如果再升级一步，你这套其实可以叫：

AI短视频工业化生产方法

已经不是写提示词了，而是：

建立视频生成标准流程。

如果你愿意，我可以再给你一个终极版（真正高手用的）：AI视频提示词10条铁律

那个会让生成成功率明显提高。

相关