对AI破口大骂？AI其实在偷偷记录

周氏家人 · 发表于 2026-4-1 12:21:58

【对AI破口大骂？AI其实在偷偷记录】

快速阅读：Anthropic在Claude客户端里埋了情绪检测逻辑，用正则匹配抓取用户的负面情绪信号。这不是在监视个人，是在收集产品失败的证据。你每一次爆粗口，都是一条高质量的UX反馈。

---

有人翻出了Claude客户端的源码，发现里面有个函数叫`matchesNegativeKeyword`，专门用正则表达式匹配“wtf”“wth”之类的词，触发后会标记一个`is_negative`字段。这件事在Reddit引起广泛讨论。

很多人第一反应是：完了，Anthropic在建黑名单。

冷静一秒。这件事的实际逻辑更接近生产监控，不是道德审判。一个系统如果不知道用户什么时候抓狂，就不知道自己哪里出了问题。骂人的那一刻，恰好是模型失败信号最强的时候。有网友说得直接：“rage moments are high quality UX data”。用正则而不是跑一个情感分析模型，是因为便宜，够用，快。

有观点认为，这套机制的另一面是激励结构。Max订阅定价偏低，1M上下文窗口慷慨开放，API折扣，这些背后有一个逻辑：你的交互数据，特别是你在什么任务上开始抓狂、在什么地方放弃、在哪一步骂了娘，对训练下一个版本的价值，可能比订阅费本身更高。数据换服务，不是什么新鲜交易，只是这次更隐蔽。

当然也有人觉得这没什么大不了。如果一个产品检测到20%的用户在某类任务上集体情绪崩溃，这就是明确的衰退信号。与其等用户提工单，不如直接在交互层抓情绪。

源码还显示可以用`DISABLE_TELEMETRY: 1`关掉这个上报，这说明它不是偷偷藏着的，只是默认开启。透明度问题是真实存在的，Anthropic确实没有在产品层面明确告知这件事。

有网友提到，他们的使用报告PDF里本来就有情绪分析一栏，显示每次会话是正面还是负面结局。换句话说，这件事一直都在，只是大多数人没注意到。

对AI发脾气这件事本身也值得多想一层。一个产品如果频繁把人逼到骂街，说明它在某个地方反复犯同一个错。Claude有一个经典失效模式：你否定了某个方案，它道歉，然后绕一圈重新给你相同的方案。这种循环才是人爆粗口的真正原因，不是用户情绪管理失败。

现在有了`is_negative`这个字段，这些失效时刻至少被记录下来了。有没有人真的在看这些数据、有没有转化成训练信号，这才是更值得追问的问题。

ref: www.reddit.com/r/ClaudeAI/comments/1s8tf4q/guys_stop_bad_mouthing_your_ai

对AI破口大骂？AI其实在偷偷记录

本帖子中包含更多资源