又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。
又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。
而是因为它已经强大到,足以轻易摧毁现有的全球网络防御体系。
《财富》独家爆出,Claude 最新强力模型泄漏,代号 Claude Mythos。
泄漏原因很搞笑,Anthropic用于发布官博的内容管理系统(CMS)由于配置失误,泄漏了 3000 份保密文件,其中一份就 ...
Harness is the New Dataset:模型智能提升的下一个关键方向
Harness is the New Dataset:模型智能提升的下一个关键方向
http://t.cn/AXI75Br3
“最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。
这背后对应着一个越来越清晰的变化:当基模能力逐渐成熟后,现在真正决定 agent 上限的,已经不是模型本身,而是围绕模型搭建起 ...
Claude是如何思考的
Claude是如何思考的
blog.bytebytego.com/p/how-anthropics-claude-thinks
bytebytego的文章.
"Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它,而 Claude 自行发展出了自己的策略,这些策略隐藏在数十亿次计算中。对于构建它的人来说,这可能感觉像一个令人不安的黑箱。因此,他们决定构建类似显微 ...
林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体
【林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体】前阿里千问负责人林俊旸在离职长文中指出,AI 大模型正从‘推理型思考’转向‘智能体思考’。他复盘了千问团队在融合指令与思考模式时遇到的困境,并揭示了未来竞争将围绕环境设计、防作弊协议等系统工程能力展开。#……
...
在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。
[CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026)
在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测(如IFEval)孤立地测试格式遵从,无法捕捉到"认知负载"如何侵蚀 ...
谷歌新型缓存技术将压缩6倍闪存需求
【#谷歌新型缓存技术将压缩6倍闪存需求#】近期,谷歌发布了名为TurboQuant的 KV 缓存压缩技术,旨在解决大语言模型(LLM)推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型,即可将键值缓存(KV Cache)压缩至3-bit精度,实现约6倍的闪存节省,同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。 ...
谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害
谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害
怪不得昨晚美股存储跌了,有点类似DeepSeek的冲击。算法加速,让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。
我一开始以为是,对内存中的大模型“KV缓存”(80%内存都是这个东西占了)搞个什么6倍的压缩算法,这样内存就可以少用了。但是要 ...
今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习
今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习、通过特征稀疏性实现注意力机制的规模化、更稀疏更高效更轻量化的 Transformer 语言模型 公·众·号:爱可可爱生活 http://t.cn/AXfgADLS #
...
一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚
【一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚】
快速阅读: 有用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。
---
每次你在一个旧会话 ...
在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。
[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026)
在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集 ...
在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身
[AI]《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026)
在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者,而非搜索机制的设计者。每一次系 ...
🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁
🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁
2026 年 3 月 23 日,Anthropic 在官方 X 账号宣布推出 Anthropic Science Blog,旨在加速科学进步——这正是公司使命的核心部分。该博客将发布最新研究成果,以及科学家如何借助 AI 推动工作的真实故事。
一、首发内容亮点:
1️⃣- 《Can AI do th ...
神经网络持久结构化记忆中的坐标系问题
我们提出了双视图信息素路径网络(DPPN),这是一种通过潜在槽位(latent slot)转换上的**持久信息素场(persistent pheromone field)**来路由稀疏注意力的架构。利用该架构,我们发现了神经网络实现持久结构化记忆的两个独立必要条件。
通过 5 组逐步完善的实验(涵盖 5 种模型变体、4 个迁移目标,且每种条件下使用多达 ...
版本避坑提醒
【版本避坑提醒】
Claude Code 新版本有个坑:缓存命中有问题,会导致消耗莫名变大。别问我怎么知道的,反正钱包会告诉你答案。
降级方案:
Claude Code(命令行)→ 用 2.1.77 以下
插件 → 用 2.1.76 以下
Step 1:卸载当前版本
npm uninstall -g @anthropic-ai/claude-code
Step 2:安装指定版本
npm install -g @ ...
最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别?
最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别?
传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧,很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理,真正的核心在算法本身。
而大模型更像是“数据的智慧”。模 ...
LLM 是人类有史以来最强大的通用工具
LLM 是人类有史以来最强大的通用工具
Agent 则第一次让这种力量具备了持续进入现实、改造现实的可能
直到今天,人类对如何真正开发 LLM 的潜能,依然处于近乎蒙圈的早期阶段
我们已经看到的,可能连它全部潜力的 0.1% 都不到
在实践中发挥想象力,创造性的解决一切问题
...
很有趣的一篇论文。
很有趣的一篇论文。
字节跳动实现了基于深度的注意力机制,并将其与序列注意力直接结合。
P.S. 现在的论文相较于十年前的,大多都很无趣。
##
刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码…
刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码……赛车的那个……当时没截图,但我大受震撼。[流汗] 这才是正儿八经的大模型投毒,或者说,大模型在学习(爬网)的时候被毒害了。[笑cry]#人工智能##ai#
...
在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。
[LG]《SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval》J Derehag, C Calva, T Ghiurau [Midbrain] (2026)
在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用 ...
在形式化数学推理领域,反例生成长期处于被忽视的角落。
[AI]《Learning to Disprove: Formal Counterexample Generation with Large Language Models》Z Li, Z Li, K Yang, X Ma… [ETH Zurich & University of Toronto & MiroMind] (2026)
在形式化数学推理领域,反例生成长期处于被忽视的角落。现有AI系统几乎专注于定理证明,而反例——那个能在一秒内摧毁一个普遍猜想的具 ...