今天一早,谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界。
在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。
接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型,进一步扩大受众范围。
因此自即日起,谷歌面向美国 18 岁及以上的 Google AI Ultra 用户开放了 Project Genie 的访问权限。
Project Genie 的多样性玩法
世界模型能够模拟环境的动态变化,并预测环境的演变方式以及动作对环境的影响。
与静态 3D 快照中的可探索体验不同,谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时,实时生成前方的路径。
它能够为动态世界模拟出物理效果和交互,并且其突破性的一致性使得模拟任何现实场景成为可能,从机器人技术、动画建模和小说创作,到地点探索和历史场景还原。
如今,在 Genie 3、Nano Banana Pro 和 Gemini 等三大模型的支持下,Project Genie 具备了以下三大核心能力:
首先是,世界草绘(World sketching)。
通过文本提示词以及生成或上传的图片,用户即可创建一个生动且不断扩张的环境。用户可以创建自己的角色和世界,并定义自己想要的探索方式,比如行走、骑行、飞行或者驾驶,等等。
为了实现更精准的控制,谷歌将「世界草绘」与 Nano Banana Pro 进行了整合。这样一来,用户在正式进入世界之前,可以预览世界的样貌并修改图像以进行微调。
用户还可以定义角色的视角(第一人称或第三人称),在进入场景前掌控自己的视觉体验。考链接:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/https://x.com/TrueSlazac/status/2016959063699906740?s=20https://x.com/emollick/status/2016982218506199531https://x.com/emollick/status/2016919989865840906?s=20https://x.com/EHuanglu/status/2