🚨突发新闻：复旦大学解决了人工智能无法解决的动画难题。

高原蓝 · 发表于 2026-3-11 06:28:47

🚨突发新闻：复旦大学解决了人工智能无法解决的动画难题。

它叫 OmniLottie

首款能够根据文本、图像或视频生成真实矢量动画的人工智能。

不是栅格化视频，也不是 GIF 动图，而是真正的 Lottie 文件，与 Airbnb、Google、Uber 以及全球所有主流应用程序使用的格式相同。

这件事之所以意义重大，原因如下：

现代应用中你看到的每一个动画，无论是加载指示器、引导流程、微交互还是动态图标，都是 Lottie 文件。设计师们要花费数小时在 After Effects 中精心制作。公司为每个动画项目支付 5000 到 20000 美元。

OmniLottie 根据文本提示生成它们。

它的运作方式如下：

→你描述你想要的东西：“一枚火箭发射升空，拖着火焰尾迹，星星闪烁”
→ OmniLottie 将您的指令转换为结构化的动画命令
→自定义的 Lottie 分词器将 JSON 压缩成紧凑的形状 + 运动标记。
→经过精细调整的VLM自回归生成完整的动画序列
→输出：一个可用于任何应用程序的、可直接用于生产的 .json Lottie 文件

三种模式：

给洛蒂发短信：描述一下，她就会回复。
图片+文本转Lottie：提供参考图片+动作描述。
视频转 Lottie：输入视频，即可获得矢量动画版本。

最离奇的部分来了：

他们用 GPT-5、DeepSeek、Gemini、Qwen2.5-VL 和商业工具对其进行了测试。

GPT-5成功率：12.7%–68%
DeepSeek：29.3%
Qwen2.5-VL：0.0%
Gemini：视频转 Lottie 0.0%

OmniLottie：文本转Lottie成功率97.3%，图片转Lottie成功率92%，视频转Lottie成功率90.7%。

每次成功生成，其速度比基于优化的方法快 530 倍。

秘密武器：一个定制的 Lottie 分词器，它可以去除所有冗余的 JSON 元数据，并将动画转换为紧凑的命令序列。原始的 Lottie JSON 数据会将大部分标记浪费在格式化上。分词器则能将模型的重点放在真正重要的部分——形状、运动和时间上。

他们还创建了 MMLottie-2M 数据集，其中包含 200 万个专业设计的矢量动画，并附有文本、图像和视频注释。这是迄今为止最大的矢量动画数据集，已公开发布。

来自复旦大学、StepFun、香港大学 MMLab 和昆士兰大学。

http://t.cn/AXVPjqtL

🚨突发新闻：复旦大学解决了人工智能无法解决的动画难题。

本帖子中包含更多资源