查看: 4|回复: 0

Claude Mythos核心架构,竟被一个22岁的年轻人扒了个精光!

[复制链接]

10

主题

0

回帖

40

积分

新手上路

积分
40
发表于 昨天 23:46 | 显示全部楼层 |阅读模式
Claude Mythos核心架构,竟被一个22岁的年轻人扒了个精光!


不是泄露,不是内部资料流出,而是初创CEO Kye Gomez靠公开论文和第一性原理,硬生生把Anthropic捂得很严的Claude Mythos核心思路,从头推导了出来,并将项目OpenMythos全开源。

他给出的结论很直接:Claude Mythos的关键,不是更大的Transformer,而是「循环深度Transformer」(RDT)。不同于传统大模型一层层堆高参数,RDT让同一套权重在一次前向中最多循环16次,隐藏状态每轮更新一次,相当于原地“多想一步”。这不是简单重复计算,而是在连续潜空间里进行迭代推理。

OpenMythos整体采用三段式结构:Prelude、Recurrent Block、Coda。前后两端是标准Transformer层,只执行一次;真正的核心在中间循环块,按公式不断更新隐藏状态,并反复注入原始输入编码,避免模型“跑偏”。

仅有循环还不够,OpenMythos还在FFN层引入了参考DeepSeek-MoE的MoE设计:细粒度专家路由、少量共享专家始终激活。随着隐藏状态在循环中演化,每一轮都会走向不同专家路径,实现“MoE给广度,循环给深度”。

此外,项目默认采用DeepSeek-V2风格的多潜变量注意力,可显著压缩KV缓存;再加上LTI约束、ACT逐位置停机和深度级LoRA适配器,共同保证循环稳定性。

更惊人的是,实验显示,770M参数的循环模型,能打平1.3B标准Transformer。这意味着推理深度开始取代参数规模,未来比拼的,也许不再是谁模型更大,而是谁“想得更多次”。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部