Claude Mythos核心架构，竟被一个22岁的年轻人扒了个精光！

twinsbbs · 发表于 2026-4-20 23:46:24

Claude Mythos核心架构，竟被一个22岁的年轻人扒了个精光！

不是泄露，不是内部资料流出，而是初创CEO Kye Gomez靠公开论文和第一性原理，硬生生把Anthropic捂得很严的Claude Mythos核心思路，从头推导了出来，并将项目OpenMythos全开源。

他给出的结论很直接：Claude Mythos的关键，不是更大的Transformer，而是「循环深度Transformer」（RDT）。不同于传统大模型一层层堆高参数，RDT让同一套权重在一次前向中最多循环16次，隐藏状态每轮更新一次，相当于原地“多想一步”。这不是简单重复计算，而是在连续潜空间里进行迭代推理。

OpenMythos整体采用三段式结构：Prelude、Recurrent Block、Coda。前后两端是标准Transformer层，只执行一次；真正的核心在中间循环块，按公式不断更新隐藏状态，并反复注入原始输入编码，避免模型“跑偏”。

仅有循环还不够，OpenMythos还在FFN层引入了参考DeepSeek-MoE的MoE设计：细粒度专家路由、少量共享专家始终激活。随着隐藏状态在循环中演化，每一轮都会走向不同专家路径，实现“MoE给广度，循环给深度”。

此外，项目默认采用DeepSeek-V2风格的多潜变量注意力，可显著压缩KV缓存；再加上LTI约束、ACT逐位置停机和深度级LoRA适配器，共同保证循环稳定性。

更惊人的是，实验显示，770M参数的循环模型，能打平1.3B标准Transformer。这意味着推理深度开始取代参数规模，未来比拼的，也许不再是谁模型更大，而是谁“想得更多次”。

Claude Mythos核心架构，竟被一个22岁的年轻人扒了个精光！

本帖子中包含更多资源