网上有很多测 AI 视频生成的,都喜欢用同一段提示词去测试不同的模型。

网上有很多测 AI 视频生成的,都喜欢用同一段提示词去测试不同的模型。实际上这种测法并不具备参考性,我前两年提到过模型的发展路径并不只有遵循这一条路,还有一条叫做推理。


你们用同一段提示词,看上去好像很公平,但对推理能力强的视频模型来说,它要的其实是想象空间,尤其在文生视频领域更是如此。

语义理解之后,遵循占大头还是推理占大头,厂商其实有不同的理解。人类的语言不可能完全描述出所有的画面,除非你告诉它三维空间坐标,亮度和颜色码值等这种程度的信息,你们觉得可能吗。

何况你的提示词写的很多看上去好像很详细很丰富约束很好的样子,你要不先看看自己的表述有没有前后矛盾的地方,你脑子里想象的画面有没有经过你开过光的嘴正确地表达了出来。相信我,大部分人做不到的。

那些比较优秀的 AI 艺术家这个级别出来的视频,提示词没那么复杂的。那你要说我想做到精确控制可以吗,当然这很重要,但不代表一开始生成就得是完全正确的。图像生成尚且还有编辑模型这个分支,为什么视频就不能先生成再编辑呢,我觉得这才是控制力真正将会发挥出作用的重要环节和流程。

在我看来,遵循能力强的模型其实很适合做成编辑模型,它和推理能力强的模型正好形成互补的关系。你的提示词要做的是把意图表达完整,当有惊喜更出彩的视频生成后,再靠模型的遵循能力去控制不好的地方以及做一些锦上添花的部分,是我心目中今年视频模型应该发展的路线。

所以用同一段提示词去测试不同厂家的模型,只能得出模型对语义的理解偏向,并不代表生成能力的强弱。我要是想生成一段光怪陆离吃了菌子后的幻想视频,说不定初代 Sora 同样可以满足要求。(别忘了 ComfyUI 这样的工具所搭建的那些巨型工作流,往往还在用 SD1.5 的模型),这背后无关模型生成能力的强弱,只关乎它背后的运作逻辑。
分类