找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

在大模型去毒化中,已有方法仅压低有害输出概率,是表层手术。线性探针可从隐层轻松恢复毒性方向

[复制链接]

5

主题

1

回帖

27

积分

新手上路

积分
27
发表于 2 小时前 | 显示全部楼层 |阅读模式
[LG]《Detoxifying LLMs via Representation Erasure-Based Preference Optimization》N M Sepahvand, E Triantafillou, H Larochelle, D Precup… [McGill University & Google DeepMind] (2026)


在大模型去毒化中,已有方法仅压低有害输出概率,是表层手术。线性探针可从隐层轻松恢复毒性方向,十例微调即逆转对齐。根因:输出层干预从未触及编码毒性的内部特征。

本文核心洞见:把去毒化重新看作逐token的表征擦除问题。通过梯度反转驱动的对抗判别器,在每个token位置迫使有毒续写的隐表征收敛至无毒对应物,令解码头无法区分二者,从根部切断毒性生成路径。

这项工作证明持久安全对齐必须发生在表征层而非输出层,打开了抗重学习、抗越狱攻击的表征工程范式。未跨过的门槛:验证仅限GPT-2与Gemma-2B,向更大模型及毒性之外有害能力的迁移尚属未知。

arxiv.org/abs/2602.23391





















#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-3 08:49 , Processed in 0.158255 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表