找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

在矢量动画生成领域,如何让机器直接从文字、图片或视频「创作」出可编辑的矢量动画,是一个长期悬而未决的难题。

[复制链接]

8

主题

1

回帖

26

积分

新手上路

积分
26
发表于 3 小时前 | 显示全部楼层 |阅读模式
[CV]《OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens》Y Yang, W Cheng, S Chen, H Fu… [Fudan University & StepFun & HKU MMLab] (2026)


在矢量动画生成领域,如何让机器直接从文字、图片或视频「创作」出可编辑的矢量动画,是一个长期悬而未决的难题。过去的方法要么依赖预设动作库套用在静态图形上,要么借助视频扩散模型生成栅格化视频,本质原因是动画的外观与运动被割裂处理,且输出格式天然缺乏可编辑性。

本文的核心洞见是:把冗长的 Lottie JSON 原始格式重新看作一种低效的中间语言,将其压缩为命令-参数序列的紧凑词表。由此,Lottie 分词器这一关键操作将原始 JSON 序列长度压缩 81%,使预训练视觉语言模型得以将注意力集中在形状、运动等真正有意义的生成内容上,而非浪费在格式符号的复现。

这项工作真正留下的遗产是:首次证明端到端自回归模型可以直接从多模态指令生成原生矢量动画,成功率远超 GPT-5、Gemini 等通用模型,并以三十秒级延迟完成 AniClipart 需要二十分钟才能完成的任务。它为后来者打开的新门是统一框架下多模态矢量内容生成的可能性;但尚未跨过的门槛是复杂动画中自回归解码仍会产生无效序列,且上下文长度限制使模型在处理多层嵌套的精细动画时力不从心。

arxiv.org/abs/2603.02138




























本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-8 08:57 , Processed in 0.432410 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表