查看: 7|回复: 0

苹果发了篇论文:简单到让人尴尬的自蒸馏提升代码生成能力

[复制链接]

10

主题

1

回帖

42

积分

新手上路

积分
42
发表于 昨天 12:46 | 显示全部楼层 |阅读模式
苹果发了篇论文:简单到让人尴尬的自蒸馏提升代码生成能力

arxiv.org/abs/2604.01193
不用教师模型,不用奖励模型,不用代码执行验证,也不用 RL;只拿模型自己生成的原始代码解答,再把这些输出当作监督数据做一轮标准 SFT,就可以让模型写代码的能力提升30%。

“大型语言模型能否仅依靠自身的原始输出,在不使用验证器、教师模型或强化学习的情况下提升代码生成能力?我们的答案是可以。
我们提出了简单自蒸馏(SSD):以特定的温度和截断配置从模型中采样解答,然后使用标准监督微调(SFT)在这些样本上继续微调。SSD 将 Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass 1 从 42.4% 提升到 55.3%,且增益主要集中在更难的问题上;同时,该方法还能泛化到 4B、8B 和 30B 规模的 Qwen 与 Llama 模型,包括 instruct 和 thinking 两类变体。为解释这样一种极简方法为何有效,我们将这些性能提升追溯到 LLM 解码中的“精度—探索”冲突,并表明 SSD 会以依赖上下文的方式重塑 token 分布:在需要精度的地方抑制干扰尾部,在需要探索的地方保留有用的多样性。综合来看,SSD 为提升 LLM 的代码生成能力提供了一条互补的后训练路径。

#How I AI#



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部