查看: 102|回复: 0

在大模型去毒化中,已有方法仅压低有害输出概率,是表层手术。线性探针可从隐层轻松恢复毒性方向

[复制链接]

11

主题

1

回帖

45

积分

新手上路

积分
45
发表于 2026-3-3 06:15:15 | 显示全部楼层 |阅读模式
[LG]《Detoxifying LLMs via Representation Erasure-Based Preference Optimization》N M Sepahvand, E Triantafillou, H Larochelle, D Precup… [McGill University & Google DeepMind] (2026)


在大模型去毒化中,已有方法仅压低有害输出概率,是表层手术。线性探针可从隐层轻松恢复毒性方向,十例微调即逆转对齐。根因:输出层干预从未触及编码毒性的内部特征。

本文核心洞见:把去毒化重新看作逐token的表征擦除问题。通过梯度反转驱动的对抗判别器,在每个token位置迫使有毒续写的隐表征收敛至无毒对应物,令解码头无法区分二者,从根部切断毒性生成路径。

这项工作证明持久安全对齐必须发生在表征层而非输出层,打开了抗重学习、抗越狱攻击的表征工程范式。未跨过的门槛:验证仅限GPT-2与Gemma-2B,向更大模型及毒性之外有害能力的迁移尚属未知。

arxiv.org/abs/2602.23391





















#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部