用 AI 做绘本视频：小朋友也能学会的魔法

你有没有想过，那些有声音、有画面的故事视频，是怎么做出来的？

其实不难。一个故事、一个 AI 助手，五步就能搞定。

我们拿《女孩和牛奶罐》这个故事，从头到尾走一遍。

先看全貌

全流程

五步：录音 → 标时间 → 写分镜 → 画图 → 合成视频。就这些。

做视频就像做三明治

三明治类比

做三明治，要面包、肉、菜，一层一层叠起来。

做视频也一样——把声音、画面、时间表叠在一起，视频就出来了。

认识你的 AI 团队

AI团队

你是总导演，告诉 AI 你想做什么故事，剩下的事它们来干：

Claude（副导演）— 你的全能助手。帮你调用 Whisper 标时间、写分镜、指挥 Gemini 画图、最后合成视频——整个流程它都能帮你搞定
Whisper（速记员）— 听录音，记下每句话在第几秒
Gemini（画家）— 按描述画出漂亮的插画

开始做！

🎤 第一步：大声读故事，录下来

朗读录音

拿起《女孩和牛奶罐》，像讲睡前故事一样大声读出来，用电脑录下来。

不用读得完美，自然就好。

⏱️ 第二步：标记时间

标记时间

Claude 调用 Whisper，帮你把录音里每句话出现的时间记下来：

0:30 — 说到"挤牛奶"
0:50 — 说到"幻想新衣服"
1:06 — 说到"摔倒了"

这样我们就知道，每句话是在录音的第几秒说的。

🎬 第三步：写分镜

写分镜

故事里每发生一个新动作，就要换一张新画面。Claude 根据时间戳，把故事拆成一格一格的"分镜"：

草地上挤牛奶
提着奶桶回家
梦想漂亮新衣服
不小心绊倒，牛奶洒了

每一格，Claude 都会写好一段"说明书"，告诉画家要画什么。

🎨 第四步：画图

AI画图

Claude 把写好的说明书交给 Gemini，几秒钟就画好一张插画。

比如第一格"草地上挤牛奶"，给 Gemini 的提示词长这样：

Two farm girls on a sunny green meadow milking a cow. The older girl has long brown hair in braids, the younger girl has short black hair with a red hairband. A large clay milk pot sits between them. Pixar-style 3D animation, vibrant colors, cinematic lighting, 16:9 wide format.

注意看：每次都要写清楚角色长什么样——“扎辫子的姐姐"和"短头发戴红发箍的妹妹”。不然同一个人每张画长得都不一样。

🧩 第五步：合成视频

合成视频

最后，Claude 把声音、画面、字幕三条轨道对齐——录音说到"摔倒了"的时候，画面就要切到摔倒的那张图。

音画对齐

对齐好，按下导出，视频就做好了！

想试试吗？

选一个短故事（1-2 分钟就够）
大声读出来，录下来
按上面五步走一遍

做不好没关系，多试几次就好了。先动手！

先看全貌#

做视频就像做三明治#

认识你的 AI 团队#

开始做！#

🎤 第一步：大声读故事，录下来#

⏱️ 第二步：标记时间#

🎬 第三步：写分镜#

🎨 第四步：画图#

🧩 第五步：合成视频#

想试试吗？#