#模型时代##斯坦福CS153# Black Forest Labs联合创始人讲Flux崛起:25人创业公司如何与大厂较量|只训语言模型是走错了方向
我之前介绍过斯坦福CS153这门课,可以称得上众星云集,萨提亚、黄仁勋……。目前已经放出四期,我先介绍Black Forest Labs联合创始人Andreas Blattmann(下称Andy)这期。因为,欧洲创业者的观点,大家看的相对较少。
Andy从德国弗赖堡远程接入,和课程主理人Anshul Kundaje一起拆解了从Stable Diffusion到Flux家族的完整技术与商业路径。Anshul本人既是CS153主理人,也是BFL已有一年半的投资人,所以这场对话既有技术视角,也有投资人贴身观察的视角。
CS153整门课在讲一个核心框架:前沿AI进展的解剖学。Anshul反复强调三个阶段的递进:
1、孵化期找到前沿的具体切口;2、然后做一次state-of-the-art release;3、再基于这次release往周边能力扩展。同时有四大瓶颈贯穿始终:context、compute、capital、culture。BFL在这门课里被作为"另一座前沿工厂"来剖析,和此前讲过的Anthropic形成对照。
再介绍一下Black Forest Labs。BFL 2025年10月宣布3亿美元融资、估值32.5亿美元,2025年11月25日发布了下一代模型Flux.2,2026年3月又发布Self-Flow这个新的多模态对齐训练方法,比当前行业标准REPA收敛快2.8倍。两年前Andy和另两位联合创始人Robin Rombach、Patrick Esser从Stability AI离职创业时,团队只有25个人,算力远少于同行。两年后,Flux.1 Kontext被Meta选去驱动Facebook等平台的图像能力,2025年9月25日被Adobe Photoshop Beta的Generative Fill集成,开源组件据公开报道累计下载量过4亿次。
这条路径里关于"焦点""飞轮""开源商业化"的判断,对任何想做前沿AI创业的人都有参考价值。
当然,课堂上也讲了不少对AI路线的判断,不得不说,视觉系的想法都是一样的。观点是:视觉比语言更底层,所以应该先搞定视觉,才是AI根本。
一、从像素到潜在空间:为什么小团队能打赢大厂
1、机械工程师误入AI,在海德堡学会了"用更少算力做更多事"
Andy原本在德国读机械工程,通过一系列巧合转到计算机科学。2019年进入海德堡大学读博时,他所在的实验室很小,整个实验室在做视觉表示学习,在当时的AI领域是小众中的小众。他的两位未来联合创始人Robin Rombach和Patrick Esser也是在这个实验室认识的。
那个年代的标杆是生成对抗网络StyleGAN。"生成一张256×256像素的图像是个挑战,不是每个算法都能做到。"Andy回忆。他们的竞争对手是Google和OpenAI的研究团队,算力差距是数量级的。这个起点逼着团队必须从算法效率上找突破。
2、潜在扩散是"学出来的JPEG",把算力成本砍掉一个数量级
他们花两年时间研究一个问题:能不能为图像和视频找到一种表示,在感知层面等价于像素空间,但维度低得多、计算效率高得多。
答案就是他们命名为潜在扩散(latent diffusion)的方法。先训练一个压缩模型,类似于学出来的JPEG编码器,把像素空间映射到一个感知等价的低维表示,再在这个低维空间里训练生成模型。这条路径让他们用比Google和OpenAI少一到两个数量级的算力,做出了持平甚至更好的模型。
这套算法后来演化成Stable Diffusion,2022年通过开源社区拿到算力发布,在湾区引发巨大关注。Andy说了个有意思的细节:"在德国,至今还是没多少人知道这个模型。"
3、一张蜡笔画引爆社区:SD为什么在2022年让视觉AI"出圈"
Anshul讲了一个他亲历的时刻。当时DALL-E 2还在预览期,BFL这帮人发布了Stable Diffusion。Reddit上有人把自己孩子的一张蜡笔画跑了一遍SD的image-to-image,出来的是一张精美插画。Anshul把截图发到Twitter上,去了趟Discord执行官会议,中午出来发现那条推文已经三四千赞。
"对我来说,那是一个意识到生成建模跨过了拐点的瞬间——它突然对机器学习社区之外的人变得可读了,因为视觉冲击太直观。"Anshul说。这件事也解释了为什么同一时期业内主流判断是"语言才是智能的界面",而视觉社区的人开始意识到视觉AI有独立且更广的应用空间。
4、自然表示 vs 人造表示:为什么只训语言模型是走错了方向
Andy对"语言是智能核心"这个主流观点持明确保留态度。他的论证分两步。
第一步是物理层面的。我们感知世界靠的是电磁波和声波,这些是自然信号,人类无法控制其源头。而文字是人类造出来的。衡量每个符号承载的信息量,文字的密度远高于图像的每个像素,原因正是演化过程中人类把冗余压缩掉了,好让沟通更高效。图像视频有大量冗余,这恰恰是为什么训练生成模型前需要压缩。反过来文字已经没有这个冗余空间可压。
第二步是学习顺序。"想想你自己是怎么学习的。作为婴儿,最初三到五年你通过观察和交互学习,我大概是五岁才学会阅读。"Andy说。"一个三岁小孩的智能水平,和一个语言模型的智能水平,是非常不同的东西。"他的判断是:从自然表示出发再叠加语言,才是和人类学习过程一致的路径;从语言出发再往上堆其他模态,方向反了。
5、视觉智能的两根支柱:观察 + 交互
顺着这个逻辑,BFL对视觉智能的定义就是两件事叠加:基于图像、视频、音频这些自然表示的观察学习,加上在物理世界中的交互。所有后续的架构和路线选择,都是从这两根支柱推导出来的。
二、Flux 1到Kontext:一次教科书级的飞轮闭环
1、聚焦是创业公司唯一的武器
2024年8月BFL正式创立时,团队对行业现状的判断是:没有任何一个图像模型能正确画出五根手指的手。于是他们把全部精力押在一个具体问题上:做一个在图像生成上比所有现有模型好10倍的产品。
"我们有完整的配方,知道该做什么。我们坐下来花了三个月把它规模化。"产出就是Flux 1。在API公开前,已经有几家大客户开始用它,帮团队完成了第一次反馈闭环。这个闭环让团队知道两件事:什么问题真正值得做,以及如何把模型做得更适合那个问题。
2、从数据里读出真实需求:用户想要的不是生成,是编辑
Flux 1开放使用后,团队观察到一个模式。大量用户在用文生图模型做LoRA微调,LoRA是一种低成本的模型定制方法,让模型记住某个特定角色或风格的外观特征。用户这么做的目的是做角色一致性。换句话说,用户真实要的不是每次生成一张新图,而是拿一张参考角色做可控变体。他们不是在生成,是在编辑。
这一点Anshul在课堂上做了个互动:"你们多少人18个月前试过拿自己的照片发给AI模型,说'给这个人加顶帽子',结果出来的那张真的像你?"台下基本没人举手。这是当年一个非常基本的能力缺口。当时行业里很多聪明人都很笃定地说这个问题解不了、AI就是蠢、永远到不了那个水平。
Andy的分析是:文字虽然低门槛、谁都能用,但和图像这种自然表示之间有根本的断层。"如果我说'一只蓝色的鸟',有无穷多张图能匹配这个描述。鸟可以站在树枝上,可以在飞,等等。"文字对图像生成的控制是非常不精确的。用户真正要的是拿一张参考图精确控制生成结果。
3、Kontext:把观察到的需求变成产品,60天完成反超
一次在意大利的团队内部会议上,OpenAI的GPT-Image刚发布,效果看起来确实很好。团队第一反应是慌。
这段Anshul讲得到位:"新团队或第一次做研究员时,这种时刻最容易崩盘。但好的领导者的标志是不慌,冷静看数据,评估地形,一步一步做计划。如果你对所在领域足够熟,直觉会告诉你哪里还有没解决的问题。"
团队成员Dustin在那次会议上意识到,模型编辑能力还是个未解问题。24小时内重组了人力分工,60天左右做出Flux.1 Kontext。Kontext用的是德语拼法的Context,这也是BFL的一个命名习惯。模型于2025年5月29日发布。
这是市场上第一个能在规模化、快速推理下做角色一致性编辑的模型。推理速度达到1MP分辨率下3到5秒,比GPT-Image等竞品快8倍。Kontext发布后六周内收入翻倍。Meta随后宣布合作,让这个25人的德国小团队驱动全球20亿用户的图像编辑体验。后来双方合作出了视频生成应用Vibes。
4、飞轮设计:不是单次发布,是系统级工程
Anshul在课上强调了一个容易被忽视的点:两年前业内的标准做法是"训一个模型,把权重丢出去,看看反响"。但从长期视角看,你要把每次迭代设计成一个系统,这次release解锁的瓶颈要为下次release做准备。
Flux 1到Kontext这次闭环,是产品观察、技术方向、工程节奏、融资节点四件事同步推进的结果。光有技术做不到,光有嗅觉也做不到。
三、视觉智能的下一站:从内容生成到物理AI
1、单模态走向多模态:再也不是只做文生图
Flux 1时代,模型是单模态的:文本和图像两种表示。用途也单一,就是内容创作。现在BFL的方向完全变了。
"我们不再为了单一的内容创作目的训练一个单模态模型。我们在训练一个统一的、多模态的模型,用于所有自然数据。"Andy说。同一个模型可以用于物理AI、机器人、让模型代替人操作电脑(computer use)、世界建模与仿真,同时还能做内容创作。
关键不是把多个功能塞进一个模型,重点在组合不同自然表示会产生叠加效应。Andy举了一个具体例子:两个刚体碰撞时总伴随声音。声音和物理动作之间存在相关性,模型能观察到这种跨模态相关性,对理解物理世界至关重要。如果只训练一个模态,模型很难理解手穿过这个透明瓶子和手穿过水之间的区别,尽管两者都涉及"透明"。
2、Pre-training + Mid-training + Post-training:训练管线的新形态
对照人类的学习过程,BFL把训练管线重新定义如下。
Pre-training是纯观察。输入是大规模的图像、视频、音频组合语料,配合Self-Flow这样的算法,让模型通过跨模态相关性学到非常通用的表示。
Mid-training是加上下文。比如给模型一张图加一段音轨作为条件,让它预测"我说XYZ时的这个声音"。更重要的是加上动作:基于视频或图像,让模型预测下一步的键盘鼠标操作。这样模型就能做computer use这类任务,比如打开一个新浏览器标签页。
Post-training是真正的交互。到这一步,模型已经具备基于视频预测动作的能力,团队把它接到真实世界中的机器人上,让模型通过机器人在物理世界里产生数据,再把数据回灌到训练里。这是BFL定义的"闭环",post-training就是物理世界交互。
3、物理验证:为什么机器人场景反而更容易做好
Anshul在课上反复提到一个判断:凡是能被物理验证的领域,前沿进展就能稳定推进。软件工程可以靠单元测试,图像生成的美学没法验证,但物理交互本身就是验证。机械臂的关节有物理约束,现实世界的物体有刚体性质,这些边界条件天然嵌入在环境里。
这和图像美学验证的困境形成对比。"我问你和问一个从没看过多少生成图像的人,评价标准完全不同。"Andy说。美学验证依赖海量人类判断,而且高度依赖观察者身份。正是这个特征决定了Flux需要开源,也决定了表示学习这一关必须从多模态的训练算法上攻下,而不是靠更多标注解决。
四、Self-Flow与开源商业化:BFL的两根技术支柱
1、Self-Flow:多模态对齐的一把新钥匙
过去两年训练视觉生成模型有个一直头疼的问题:模型能生成像素,但不理解语义。业内的解法叫表示对齐,比如用预训练的Dino图像https://video.weibo.com/show?fid=1034:5287241325674555