Claude Mythos核心架构,竟被一个22岁的年轻人扒了个精光!

Claude Mythos核心架构,竟被一个22岁的年轻人扒了个精光!


不是泄露,不是内部资料流出,而是初创CEO Kye Gomez靠公开论文和第一性原理,硬生生把Anthropic捂得很严的Claude Mythos核心思路,从头推导了出来,并将项目OpenMythos全开源。

他给出的结论很直接:Claude Mythos的关键,不是更大的Transformer,而是「循环深度Transformer」(RDT)。不同于传统大模型一层层堆高参数,RDT让同一套权重在一次前向中最多循环16次,隐藏状态每轮更新一次,相当于原地“多想一步”。这不是简单重复计算,而是在连续潜空间里进行迭代推理。

OpenMythos整体采用三段式结构:Prelude、Recurrent Block、Coda。前后两端是标准Transformer层,只执行一次;真正的核心在中间循环块,按公式不断更新隐藏状态,并反复注入原始输入编码,避免模型“跑偏”。

仅有循环还不够,OpenMythos还在FFN层引入了参考DeepSeek-MoE的MoE设计:细粒度专家路由、少量共享专家始终激活。随着隐藏状态在循环中演化,每一轮都会走向不同专家路径,实现“MoE给广度,循环给深度”。

此外,项目默认采用DeepSeek-V2风格的多潜变量注意力,可显著压缩KV缓存;再加上LTI约束、ACT逐位置停机和深度级LoRA适配器,共同保证循环稳定性。

更惊人的是,实验显示,770M参数的循环模型,能打平1.3B标准Transformer。这意味着推理深度开始取代参数规模,未来比拼的,也许不再是谁模型更大,而是谁“想得更多次”。





分类