订阅

AI大模型 今日: 0|主题: 98|排名: 17 

  • 又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。
    又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。 而是因为它已经强大到,足以轻易摧毁现有的全球网络防御体系。 《财富》独家爆出,Claude 最新强力模型泄漏,代号 Claude Mythos。 泄漏原因很搞笑,Anthropic用于发布官博的内容管理系统(CMS)由于配置失误,泄漏了 3000 份保密文件,其中一份就 ...
    0122 要修炼好心态 发表于 2026-3-27 AI大模型
  • Harness is the New Dataset:模型智能提升的下一个关键方向
    Harness is the New Dataset:模型智能提升的下一个关键方向 http://t.cn/AXI75Br3 “最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。 这背后对应着一个越来越清晰的变化:当基模能力逐渐成熟后,现在真正决定 agent 上限的,已经不是模型本身,而是围绕模型搭建起 ...
    0107 hao898 发表于 2026-3-27 AI大模型
  • Claude是如何思考的
    Claude是如何思考的 blog.bytebytego.com/p/how-anthropics-claude-thinks bytebytego的文章. "Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它,而 Claude 自行发展出了自己的策略,这些策略隐藏在数十亿次计算中。对于构建它的人来说,这可能感觉像一个令人不安的黑箱。因此,他们决定构建类似显微 ...
    0114 贺超 发表于 2026-3-27 AI大模型
  • 林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体
    【林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体】前阿里千问负责人林俊旸在离职长文中指出,AI 大模型正从‘推理型思考’转向‘智能体思考’。他复盘了千问团队在融合指令与思考模式时遇到的困境,并揭示了未来竞争将围绕环境设计、防作弊协议等系统工程能力展开。#…… ​​​ ...
    089 水坤 发表于 2026-3-27 AI大模型
  • 在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。
    [CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026) 在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测(如IFEval)孤立地测试格式遵从,无法捕捉到"认知负载"如何侵蚀 ...
    +1
    094 空中月 发表于 2026-3-27 AI大模型
  • 谷歌新型缓存技术将压缩6倍闪存需求
    【#谷歌新型缓存技术将压缩6倍闪存需求#】近期,谷歌发布了名为TurboQuant的 KV 缓存压缩技术,旨在解决大语言模型(LLM)推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型,即可将键值缓存(KV Cache)压缩至3-bit精度,实现约6倍的闪存节省,同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。 ...
    0104 爱深求 发表于 2026-3-26 AI大模型
  • 谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害
    谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害 怪不得昨晚美股存储跌了,有点类似DeepSeek的冲击。算法加速,让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。 我一开始以为是,对内存中的大模型“KV缓存”(80%内存都是这个东西占了)搞个什么6倍的压缩算法,这样内存就可以少用了。但是要 ...
    0103 FineRIk 发表于 2026-3-26 AI大模型
  • 今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习
    今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习、通过特征稀疏性实现注意力机制的规模化、更稀疏更高效更轻量化的 Transformer 语言模型 公·众·号:爱可可爱生活 http://t.cn/AXfgADLS #​​​ ...
    0122 想过 发表于 2026-3-26 AI大模型
  • 一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚
    【一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚】 快速阅读: 有用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。 --- 每次你在一个旧会话 ...
    0130 闻听 发表于 2026-3-26 AI大模型
  • 在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。
    [CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026) 在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集 ...
    +1
    0126 吴歌 发表于 2026-3-26 AI大模型
  • 在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身
    [AI]《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026) 在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者,而非搜索机制的设计者。每一次系 ...
    0119 铉霸 发表于 2026-3-26 AI大模型
  • 🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁
    🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁 2026 年 3 月 23 日,Anthropic 在官方 X 账号宣布推出 Anthropic Science Blog,旨在加速科学进步——这正是公司使命的核心部分。该博客将发布最新研究成果,以及科学家如何借助 AI 推动工作的真实故事。 一、首发内容亮点: 1️⃣- 《Can AI do th ...
    0113 梅琴 发表于 2026-3-25 AI大模型
  • 神经网络持久结构化记忆中的坐标系问题
    我们提出了双视图信息素路径网络(DPPN),这是一种通过潜在槽位(latent slot)转换上的**持久信息素场(persistent pheromone field)**来路由稀疏注意力的架构。利用该架构,我们发现了神经网络实现持久结构化记忆的两个独立必要条件。 通过 5 组逐步完善的实验(涵盖 5 种模型变体、4 个迁移目标,且每种条件下使用多达 ...
    0111 西域·骆驼 发表于 2026-3-25 AI大模型
  • 版本避坑提醒
    【版本避坑提醒】 Claude Code 新版本有个坑:缓存命中有问题,会导致消耗莫名变大。别问我怎么知道的,反正钱包会告诉你答案。 降级方案: Claude Code(命令行)→ 用 2.1.77 以下 插件 → 用 2.1.76 以下 Step 1:卸载当前版本 npm uninstall -g @anthropic-ai/claude-code Step 2:安装指定版本 npm install -g @ ...
    0149 王荣超 发表于 2026-3-25 AI大模型
  • 最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别?
    最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别? 传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧,很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理,真正的核心在算法本身。 而大模型更像是“数据的智慧”。模 ...
    0132 如果夜懂我 发表于 2026-3-24 AI大模型
  • LLM 是人类有史以来最强大的通用工具
    LLM 是人类有史以来最强大的通用工具 Agent 则第一次让这种力量具备了持续进入现实、改造现实的可能 直到今天,人类对如何真正开发 LLM 的潜能,依然处于近乎蒙圈的早期阶段 我们已经看到的,可能连它全部潜力的 0.1% 都不到 在实践中发挥想象力,创造性的解决一切问题 ​ ...
    0103 短腿小矮基 发表于 2026-3-24 AI大模型
  • 很有趣的一篇论文。
    很有趣的一篇论文。 字节跳动实现了基于深度的注意力机制,并将其与序列注意力直接结合。 P.S. 现在的论文相较于十年前的,大多都很无趣。 ## ​
    0117 憬溺 发表于 2026-3-24 AI大模型
  • 刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码…
    刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码……赛车的那个……当时没截图,但我大受震撼。[流汗] 这才是正儿八经的大模型投毒,或者说,大模型在学习(爬网)的时候被毒害了。[笑cry]#人工智能##ai# ​​​ ...
    0103 陈连利 发表于 2026-3-24 AI大模型
  • 在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。
    [LG]《SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval》J Derehag, C Calva, T Ghiurau [Midbrain] (2026) 在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用 ...
    0121 小鱼急急 发表于 2026-3-24 AI大模型
  • 在形式化数学推理领域,反例生成长期处于被忽视的角落。
    [AI]《Learning to Disprove: Formal Counterexample Generation with Large Language Models》Z Li, Z Li, K Yang, X Ma… [ETH Zurich & University of Toronto & MiroMind] (2026) 在形式化数学推理领域,反例生成长期处于被忽视的角落。现有AI系统几乎专注于定理证明,而反例——那个能在一秒内摧毁一个普遍猜想的具 ...
    0122 Valeron83enved 发表于 2026-3-24 AI大模型
  • 下一页 »

    快速发帖

    还可输入 120 个字符
    您需要登录后才可以发帖 登录 | 立即注册

    本版积分规则

    关注公众号

    相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

    在本版发帖
    关注公众号
    返回顶部