硅谷现在有一个非常疯狂，但越来越被认可的共识，那就是 2026 年将会是 world model，也就是世界模型全面爆发的元年。

tkv2373 · 发表于 2026-3-27 13:51:45

硅谷现在有一个非常疯狂，但越来越被认可的共识，那就是 2026 年将会是 world model，也就是世界模型全面爆发的元年。如果说 chatgpt 是让 AI 学会了怎么像人一样说话，那么世界模型就是要让 AI 学会像神一样去推演和预测这个物理世界，这不光是技术路线的升级，这简直就是一场把 AI 从聊天框里拽出来扔进真实战场的革命。大家好，我是AJ，一个帮大家拆解硬核科技的男人。今天咱们的消息源来自硅谷 101 波客，咱们不聊那些虚头巴脑的概念，直接用第一性原理把最近被Openai、谷歌还有李飞飞、杨立昆这些顶级大佬争得头破血流的世界模型彻底拆解清楚。这期视频含金量极高，我会带你穿透 Sora 的表象，看懂未来 10 年 AI 真正的底层逻辑。咱们先从一个最简单的问题入手，来理解什么叫世界模型，想象一下，你把一个玻璃杯放在桌子边缘推它一下，还没推之前，你脑子里是不是已经有了画面？你知道它会掉下去，会碎，水会洒出来，你不需要真的推下去，你的大脑里有一个模拟器，它懂重力、懂玻璃的材质、懂因果律，这就是认知科学里说的心智模型。

但是现在的AI，比如我们熟悉的chatgpt，它懂这个吗？说实话它不懂，如果你问它杯子会不会碎，它回答会。是因为它读过成千上万条包含杯子碎了的文本，它是靠概率猜出来的，而不是因为它理解重力。这就引出了图灵奖得主杨立昆那个著名的暴论，他说大语言模型是死路一条，再过 5 年可能就没人用了。这话说的非常得罪人，但也点破了一个真相。
现在的 LLM 是原本的文字匠人，能言善辩，但缺乏常识，而世界模型就是要给 AI 装上这个物理模拟器，那现在硅谷这帮聪明人到底在搞什么呢？我们在访谈和调研中发现，整个世界模型的江湖其实被拆成了三层，咱们把它想象成盖房子。最下面一层是思维与范式，也就是 AI 怎么去抽象？这个世界怎么做预测？怎么做规划？这是地基，中间这一层是表现形式，也就是 AI 用什么方式把这个世界画出来给我们看？是生成视频还是生成 3D 模型？最上面一层是目的层，就是有了这个世界之后， AI 在里面干什么？它是要玩游戏还是要训练机器人去端茶倒水？现在最热闹的，也是大家最容易被忽悠的就是中间这一层世界生成。这里面分成了两大门派，打得不可开交。
第一大门派我称之为画皮派，代表就是 Openai 的 Sora 和谷歌的Gemini。 Sora 刚出来的时候大家都疯了，觉得这就是世界模型，它生成的视频里光影水波纹理都太真实了，但是各位，咱们得保持清醒， Sora 本质上是一个视频模型。它是通过学习海量的视频数据，记住了像素变化的规律，它知道车子往前开，背景要往后退，但它可能并不知道这辆车的长宽高是多少，甚至不知道车轮子是被挡住了还是消失了。这就好比一个天才画家，他能画出最逼真的跑车，但你让他去造车，他连图纸都画不出来，这就是视频生成路线的硬伤，它的物理理解是隐式的，是藏在像素概率里的。所以第二大门派造骨派登场了。
这一派的掌门人是大家非常熟悉的李飞飞，她搞了一个 world Labs，估值短短一年半干到了 50 亿美金。她的逻辑非常硬核，真实世界是 3D 的，不是 2D 的视频AI。如果想真的理解世界，必须得知道物体的空间结构几何关系。 world Labs 做的模型，比如Mario，你给它一张图，它能直接反推出这个场景的 3D 结构文件，它能告诉你这辆车长 4 米，宽一米8，这种显示的 3D 结构对于未来机器人抓取物体自动驾驶避障，那是救命级别的信息。虽然这一条路极难走，数据贵，算力高，但他是在造世界的骨架，而不是画皮。但是这时候，那个喜欢唱反调的极客老哥杨立昆又站出来了，他搞了一个更玄乎的路线，咱们可以叫他修心派，也就是 j 帕架构。杨立昆觉得你们不管是画视频还是造 3D 都太浪费算力了。人类学走路的时候，需要把路面上的每一颗沙子的纹理都看清楚吗？不需要，我们只需要知道哪是路，哪是坑。所以它的 JPEG 模型完全不生成画面，它只在潜意识空间里预测结构，它把世界压缩成一堆抽象的数学表达，只关心那些对决策有用的信息。这听起来是不是特别像高维生物的视角？我不看皮囊，我只看因果，虽然这条路现在还很早期，甚至连个像样的 demo 都很难展示给大众看，但在学术界，这被认为是通往 AGI 最省流、最高效的路径。好了，聊完了这三大门派的混战，咱们得把视角拉回到商业落地，这玩意到底能干嘛？是能让我少加点班，还是能让我多赚点钱？首先被彻底颠覆的是。绝对是机器人行业，咱们现在的机器人说实话挺笨的，工厂里的机械臂看似厉害，但只要你把零件的位置稍微挪个几厘米，它可能就抓瞎了，甚至直接撞上去。为什么？因为它没有世界模型。它不知道这一撞会有什么后果，但是有了世界模型，机器人就有了一个大脑里的模拟器，它可以在虚拟世界里先试错一万次，把杯子打碎一万次，找到那个完美的抓取角度，然后再在现实世界里执行一次，这就是所谓的 SIM to real，从虚拟到现实的迁移。
这会解决机器人行业那个著名的莫拉维克悖论，让 AI 下围棋容易，让 AI 像一岁孩子一样走路却难如登天。一旦这个突破了家庭保姆机器人复杂的工业装配机器人才有可能真正走进千家万户。再看自动驾驶马斯克喊了 5 年的 L 5 级自动驾驶为什么一直难产？因为现在的车。虽然装满了雷达和摄像头，但它主要是靠感知和规则。它看到了前面的车，但它很难精准预测这辆车下一秒会不会突然变道，或者路边那个玩手机的路人会不会突然冲出来。世界模型能让车具备预判能力，威某最近就在把自动驾驶系统重构成一个 foundation model，让车在脑子里同时推演几百种未来的可能性，然后选出最安全的一条路。这不再是简单的识别，这是在预知未来。还有一个大家可能没意识到的巨大金矿，就是游戏和内容产业，现在的 3A 大作开发周期动不动就五六年，几百人的团队在那贴图写脚本，有了世界模型，游戏还需要制作吗？不需要了，游戏是长出来的，你给 AI 一个世界观，说这是一个赛博朋克风格的被水淹没的城市， AI 就能自动生成地形、建筑、天气，甚至生成几千个有独立性格、有记忆的NPC。
谷歌的 GNE3 已经能做到这一点了，你按一下键盘，下一秒的画面是 AI 实时生成的，而不是程序员写好的，这意味着未来的游戏，每一个人的体验都是独一无二的。甚至可以说那不再是游戏。那是属于你一个人的黑客帝国。说到这大家可能觉得这未来太美好了，但是作为一名理性的观察者，我必须得泼一盆冷水，这里面藏着一个巨大的隐患，甚至比核武器还危险，那就是模型幻觉的升级版，以前大语言模型胡说八道，我们顶多笑一笑，但如果世界模型产生了幻觉，那是要出人命的。想象一下一个控制机器人的世界模型，它错误的理解了物体的重量，或者一个自动驾驶的世界模型，错误的预判了那辆卡车的刹车距离。这种幻觉不是文字上的错误。它是物理规则的扭曲，而且这种错误非常隐蔽，因为世界模型内部的推理过程是黑盒的，我们很难知道它到底理解了什么。
当现实世界和虚拟世界的边界越来越模糊，当越来越多的决策交给这些看不见的模拟器去做的时候，我们人类还能不能掌控局面？这是一个巨大的问号。所以回到开头那个话题，为什么说 2026 年是爆发元年？因为现在无论是算力数据还是多模态技术，都已经把火药桶填满了。就差那根引线，Meta、谷歌 Openai 这几家巨头现在是全。全栈布局，扎克伯格虽然嘴上不说，但 Meta 在视频生成 3D 重建、抽象预测这三条路上都在狂奔。他们很清楚，大模型的红利吃的差不多了，下一张通往 AGI 的船票就是世界模型。对于我们普通人来说，理解世界模型不是为了去造一个AI，而是为了理解未来十年我们与数字世界。人类文改。