模型时代##斯坦福CS153# Black Forest Labs联合创始人讲Flux崛起

韩英

2026-04-13 23:16:18

#模型时代##斯坦福CS153# Black Forest Labs联合创始人讲Flux崛起：25人创业公司如何与大厂较量｜只训语言模型是走错了方向

我之前介绍过斯坦福CS153这门课，可以称得上众星云集，萨提亚、黄仁勋……。目前已经放出四期，我先介绍Black Forest Labs联合创始人Andreas Blattmann（下称Andy）这期。因为，欧洲创业者的观点，大家看的相对较少。

Andy从德国弗赖堡远程接入，和课程主理人Anshul Kundaje一起拆解了从Stable Diffusion到Flux家族的完整技术与商业路径。Anshul本人既是CS153主理人，也是BFL已有一年半的投资人，所以这场对话既有技术视角，也有投资人贴身观察的视角。

CS153整门课在讲一个核心框架：前沿AI进展的解剖学。Anshul反复强调三个阶段的递进：
1、孵化期找到前沿的具体切口；2、然后做一次state-of-the-art release；3、再基于这次release往周边能力扩展。同时有四大瓶颈贯穿始终：context、compute、capital、culture。BFL在这门课里被作为"另一座前沿工厂"来剖析，和此前讲过的Anthropic形成对照。

再介绍一下Black Forest Labs。BFL 2025年10月宣布3亿美元融资、估值32.5亿美元，2025年11月25日发布了下一代模型Flux.2，2026年3月又发布Self-Flow这个新的多模态对齐训练方法，比当前行业标准REPA收敛快2.8倍。两年前Andy和另两位联合创始人Robin Rombach、Patrick Esser从Stability AI离职创业时，团队只有25个人，算力远少于同行。两年后，Flux.1 Kontext被Meta选去驱动Facebook等平台的图像能力，2025年9月25日被Adobe Photoshop Beta的Generative Fill集成，开源组件据公开报道累计下载量过4亿次。

这条路径里关于"焦点""飞轮""开源商业化"的判断，对任何想做前沿AI创业的人都有参考价值。

当然，课堂上也讲了不少对AI路线的判断，不得不说，视觉系的想法都是一样的。观点是：视觉比语言更底层，所以应该先搞定视觉，才是AI根本。

一、从像素到潜在空间：为什么小团队能打赢大厂

1、机械工程师误入AI，在海德堡学会了"用更少算力做更多事"

Andy原本在德国读机械工程，通过一系列巧合转到计算机科学。2019年进入海德堡大学读博时，他所在的实验室很小，整个实验室在做视觉表示学习，在当时的AI领域是小众中的小众。他的两位未来联合创始人Robin Rombach和Patrick Esser也是在这个实验室认识的。

那个年代的标杆是生成对抗网络StyleGAN。"生成一张256×256像素的图像是个挑战，不是每个算法都能做到。"Andy回忆。他们的竞争对手是Google和OpenAI的研究团队，算力差距是数量级的。这个起点逼着团队必须从算法效率上找突破。

2、潜在扩散是"学出来的JPEG"，把算力成本砍掉一个数量级

他们花两年时间研究一个问题：能不能为图像和视频找到一种表示，在感知层面等价于像素空间，但维度低得多、计算效率高得多。

答案就是他们命名为潜在扩散（latent diffusion）的方法。先训练一个压缩模型，类似于学出来的JPEG编码器，把像素空间映射到一个感知等价的低维表示，再在这个低维空间里训练生成模型。这条路径让他们用比Google和OpenAI少一到两个数量级的算力，做出了持平甚至更好的模型。

这套算法后来演化成Stable Diffusion，2022年通过开源社区拿到算力发布，在湾区引发巨大关注。Andy说了个有意思的细节："在德国，至今还是没多少人知道这个模型。"

3、一张蜡笔画引爆社区：SD为什么在2022年让视觉AI"出圈"

Anshul讲了一个他亲历的时刻。当时DALL-E 2还在预览期，BFL这帮人发布了Stable Diffusion。Reddit上有人把自己孩子的一张蜡笔画跑了一遍SD的image-to-image，出来的是一张精美插画。Anshul把截图发到Twitter上，去了趟Discord执行官会议，中午出来发现那条推文已经三四千赞。

"对我来说，那是一个意识到生成建模跨过了拐点的瞬间——它突然对机器学习社区之外的人变得可读了，因为视觉冲击太直观。"Anshul说。这件事也解释了为什么同一时期业内主流判断是"语言才是智能的界面"，而视觉社区的人开始意识到视觉AI有独立且更广的应用空间。

4、自然表示 vs 人造表示：为什么只训语言模型是走错了方向

Andy对"语言是智能核心"这个主流观点持明确保留态度。他的论证分两步。

第一步是物理层面的。我们感知世界靠的是电磁波和声波，这些是自然信号，人类无法控制其源头。而文字是人类造出来的。衡量每个符号承载的信息量，文字的密度远高于图像的每个像素，原因正是演化过程中人类把冗余压缩掉了，好让沟通更高效。图像视频有大量冗余，这恰恰是为什么训练生成模型前需要压缩。反过来文字已经没有这个冗余空间可压。

第二步是学习顺序。"想想你自己是怎么学习的。作为婴儿，最初三到五年你通过观察和交互学习，我大概是五岁才学会阅读。"Andy说。"一个三岁小孩的智能水平，和一个语言模型的智能水平，是非常不同的东西。"他的判断是：从自然表示出发再叠加语言，才是和人类学习过程一致的路径；从语言出发再往上堆其他模态，方向反了。

5、视觉智能的两根支柱：观察 + 交互

顺着这个逻辑，BFL对视觉智能的定义就是两件事叠加：基于图像、视频、音频这些自然表示的观察学习，加上在物理世界中的交互。所有后续的架构和路线选择，都是从这两根支柱推导出来的。

二、Flux 1到Kontext：一次教科书级的飞轮闭环

1、聚焦是创业公司唯一的武器

2024年8月BFL正式创立时，团队对行业现状的判断是：没有任何一个图像模型能正确画出五根手指的手。于是他们把全部精力押在一个具体问题上：做一个在图像生成上比所有现有模型好10倍的产品。

"我们有完整的配方，知道该做什么。我们坐下来花了三个月把它规模化。"产出就是Flux 1。在API公开前，已经有几家大客户开始用它，帮团队完成了第一次反馈闭环。这个闭环让团队知道两件事：什么问题真正值得做，以及如何把模型做得更适合那个问题。

2、从数据里读出真实需求：用户想要的不是生成，是编辑

Flux 1开放使用后，团队观察到一个模式。大量用户在用文生图模型做LoRA微调，LoRA是一种低成本的模型定制方法，让模型记住某个特定角色或风格的外观特征。用户这么做的目的是做角色一致性。换句话说，用户真实要的不是每次生成一张新图，而是拿一张参考角色做可控变体。他们不是在生成，是在编辑。

这一点Anshul在课堂上做了个互动："你们多少人18个月前试过拿自己的照片发给AI模型，说'给这个人加顶帽子'，结果出来的那张真的像你？"台下基本没人举手。这是当年一个非常基本的能力缺口。当时行业里很多聪明人都很笃定地说这个问题解不了、AI就是蠢、永远到不了那个水平。

Andy的分析是：文字虽然低门槛、谁都能用，但和图像这种自然表示之间有根本的断层。"如果我说'一只蓝色的鸟'，有无穷多张图能匹配这个描述。鸟可以站在树枝上，可以在飞，等等。"文字对图像生成的控制是非常不精确的。用户真正要的是拿一张参考图精确控制生成结果。

3、Kontext：把观察到的需求变成产品，60天完成反超

一次在意大利的团队内部会议上，OpenAI的GPT-Image刚发布，效果看起来确实很好。团队第一反应是慌。

这段Anshul讲得到位："新团队或第一次做研究员时，这种时刻最容易崩盘。但好的领导者的标志是不慌，冷静看数据，评估地形，一步一步做计划。如果你对所在领域足够熟，直觉会告诉你哪里还有没解决的问题。"

团队成员Dustin在那次会议上意识到，模型编辑能力还是个未解问题。24小时内重组了人力分工，60天左右做出Flux.1 Kontext。Kontext用的是德语拼法的Context，这也是BFL的一个命名习惯。模型于2025年5月29日发布。

这是市场上第一个能在规模化、快速推理下做角色一致性编辑的模型。推理速度达到1MP分辨率下3到5秒，比GPT-Image等竞品快8倍。Kontext发布后六周内收入翻倍。Meta随后宣布合作，让这个25人的德国小团队驱动全球20亿用户的图像编辑体验。后来双方合作出了视频生成应用Vibes。

4、飞轮设计：不是单次发布，是系统级工程

Anshul在课上强调了一个容易被忽视的点：两年前业内的标准做法是"训一个模型，把权重丢出去，看看反响"。但从长期视角看，你要把每次迭代设计成一个系统，这次release解锁的瓶颈要为下次release做准备。

Flux 1到Kontext这次闭环，是产品观察、技术方向、工程节奏、融资节点四件事同步推进的结果。光有技术做不到，光有嗅觉也做不到。

三、视觉智能的下一站：从内容生成到物理AI

1、单模态走向多模态：再也不是只做文生图

Flux 1时代，模型是单模态的：文本和图像两种表示。用途也单一，就是内容创作。现在BFL的方向完全变了。

"我们不再为了单一的内容创作目的训练一个单模态模型。我们在训练一个统一的、多模态的模型，用于所有自然数据。"Andy说。同一个模型可以用于物理AI、机器人、让模型代替人操作电脑（computer use）、世界建模与仿真，同时还能做内容创作。

关键不是把多个功能塞进一个模型，重点在组合不同自然表示会产生叠加效应。Andy举了一个具体例子：两个刚体碰撞时总伴随声音。声音和物理动作之间存在相关性，模型能观察到这种跨模态相关性，对理解物理世界至关重要。如果只训练一个模态，模型很难理解手穿过这个透明瓶子和手穿过水之间的区别，尽管两者都涉及"透明"。

2、Pre-training + Mid-training + Post-training：训练管线的新形态

对照人类的学习过程，BFL把训练管线重新定义如下。

Pre-training是纯观察。输入是大规模的图像、视频、音频组合语料，配合Self-Flow这样的算法，让模型通过跨模态相关性学到非常通用的表示。

Mid-training是加上下文。比如给模型一张图加一段音轨作为条件，让它预测"我说XYZ时的这个声音"。更重要的是加上动作：基于视频或图像，让模型预测下一步的键盘鼠标操作。这样模型就能做computer use这类任务，比如打开一个新浏览器标签页。

Post-training是真正的交互。到这一步，模型已经具备基于视频预测动作的能力，团队把它接到真实世界中的机器人上，让模型通过机器人在物理世界里产生数据，再把数据回灌到训练里。这是BFL定义的"闭环"，post-training就是物理世界交互。

3、物理验证：为什么机器人场景反而更容易做好

Anshul在课上反复提到一个判断：凡是能被物理验证的领域，前沿进展就能稳定推进。软件工程可以靠单元测试，图像生成的美学没法验证，但物理交互本身就是验证。机械臂的关节有物理约束，现实世界的物体有刚体性质，这些边界条件天然嵌入在环境里。

这和图像美学验证的困境形成对比。"我问你和问一个从没看过多少生成图像的人，评价标准完全不同。"Andy说。美学验证依赖海量人类判断，而且高度依赖观察者身份。正是这个特征决定了Flux需要开源，也决定了表示学习这一关必须从多模态的训练算法上攻下，而不是靠更多标注解决。

四、Self-Flow与开源商业化：BFL的两根技术支柱

1、Self-Flow：多模态对齐的一把新钥匙

过去两年训练视觉生成模型有个一直头疼的问题：模型能生成像素，但不理解语义。业内的解法叫表示对齐，比如用预训练的Dino图像https://video.weibo.com/show?fid=1034:5287241325674555

相关阅读