网上有很多测 AI 视频生成的，都喜欢用同一段提示词去测试不同的模型。

作别西天

2026-02-23 13:12:02

网上有很多测 AI 视频生成的，都喜欢用同一段提示词去测试不同的模型。实际上这种测法并不具备参考性，我前两年提到过模型的发展路径并不只有遵循这一条路，还有一条叫做推理。

你们用同一段提示词，看上去好像很公平，但对推理能力强的视频模型来说，它要的其实是想象空间，尤其在文生视频领域更是如此。

语义理解之后，遵循占大头还是推理占大头，厂商其实有不同的理解。人类的语言不可能完全描述出所有的画面，除非你告诉它三维空间坐标，亮度和颜色码值等这种程度的信息，你们觉得可能吗。

何况你的提示词写的很多看上去好像很详细很丰富约束很好的样子，你要不先看看自己的表述有没有前后矛盾的地方，你脑子里想象的画面有没有经过你开过光的嘴正确地表达了出来。相信我，大部分人做不到的。

那些比较优秀的 AI 艺术家这个级别出来的视频，提示词没那么复杂的。那你要说我想做到精确控制可以吗，当然这很重要，但不代表一开始生成就得是完全正确的。图像生成尚且还有编辑模型这个分支，为什么视频就不能先生成再编辑呢，我觉得这才是控制力真正将会发挥出作用的重要环节和流程。

在我看来，遵循能力强的模型其实很适合做成编辑模型，它和推理能力强的模型正好形成互补的关系。你的提示词要做的是把意图表达完整，当有惊喜更出彩的视频生成后，再靠模型的遵循能力去控制不好的地方以及做一些锦上添花的部分，是我心目中今年视频模型应该发展的路线。

所以用同一段提示词去测试不同厂家的模型，只能得出模型对语义的理解偏向，并不代表生成能力的强弱。我要是想生成一段光怪陆离吃了菌子后的幻想视频，说不定初代 Sora 同样可以满足要求。（别忘了 ComfyUI 这样的工具所搭建的那些巨型工作流，往往还在用 SD1.5 的模型），这背后无关模型生成能力的强弱，只关乎它背后的运作逻辑。

相关阅读