你有没有想过,那些有声音、有画面的故事视频,是怎么做出来的?

其实不难。一个故事、一个 AI 助手,五步就能搞定。

我们拿《女孩和牛奶罐》这个故事,从头到尾走一遍。


先看全貌

全流程

五步:录音 → 标时间 → 写分镜 → 画图 → 合成视频。就这些。


做视频就像做三明治

三明治类比

做三明治,要面包、肉、菜,一层一层叠起来。

做视频也一样——把声音、画面、时间表叠在一起,视频就出来了。


认识你的 AI 团队

AI团队

你是总导演,告诉 AI 你想做什么故事,剩下的事它们来干:

  • Claude(副导演)— 你的全能助手。帮你调用 Whisper 标时间、写分镜、指挥 Gemini 画图、最后合成视频——整个流程它都能帮你搞定
  • Whisper(速记员)— 听录音,记下每句话在第几秒
  • Gemini(画家)— 按描述画出漂亮的插画

开始做!

🎤 第一步:大声读故事,录下来

朗读录音

拿起《女孩和牛奶罐》,像讲睡前故事一样大声读出来,用电脑录下来。

不用读得完美,自然就好。

⏱️ 第二步:标记时间

标记时间

Claude 调用 Whisper,帮你把录音里每句话出现的时间记下来:

  • 0:30 — 说到"挤牛奶"
  • 0:50 — 说到"幻想新衣服"
  • 1:06 — 说到"摔倒了"

这样我们就知道,每句话是在录音的第几秒说的。

🎬 第三步:写分镜

写分镜

故事里每发生一个新动作,就要换一张新画面。Claude 根据时间戳,把故事拆成一格一格的"分镜":

  1. 草地上挤牛奶
  2. 提着奶桶回家
  3. 梦想漂亮新衣服
  4. 不小心绊倒,牛奶洒了

每一格,Claude 都会写好一段"说明书",告诉画家要画什么。

🎨 第四步:画图

AI画图

Claude 把写好的说明书交给 Gemini,几秒钟就画好一张插画。

比如第一格"草地上挤牛奶",给 Gemini 的提示词长这样:

Two farm girls on a sunny green meadow milking a cow. The older girl has long brown hair in braids, the younger girl has short black hair with a red hairband. A large clay milk pot sits between them. Pixar-style 3D animation, vibrant colors, cinematic lighting, 16:9 wide format.

注意看:每次都要写清楚角色长什么样——“扎辫子的姐姐"和"短头发戴红发箍的妹妹”。不然同一个人每张画长得都不一样。

🧩 第五步:合成视频

合成视频

最后,Claude 把声音、画面、字幕三条轨道对齐——录音说到"摔倒了"的时候,画面就要切到摔倒的那张图。

音画对齐

对齐好,按下导出,视频就做好了!


想试试吗?

  1. 选一个短故事(1-2 分钟就够)
  2. 大声读出来,录下来
  3. 按上面五步走一遍

做不好没关系,多试几次就好了。先动手!