AI大模型今日: 0|主题: 103|排名: 18

之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。

之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。地址：github.com/jingyaogong/minimind 它还有一个兄弟项目：训练小型视觉模型的 github.com/jingyaog ...

0172

对的事情发表于 2026-3-30 AI大模型

在生成式视觉建模领域，分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁：先冻结编码器，再在固定潜空间上训练生成模型。

[CV]《End-to-End Training for Unified Tokenization and Latent Denoising》S Duggal, X Bai, Z Wu, R Zhang… [MIT & Adobe] (2026) 在生成式视觉建模领域，分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁：先冻结编码器，再在固定潜空间上训练生成模型。这种割裂导致生成目标的梯度永远无法塑造表示空间 ...

0198

gotoback 发表于 2026-3-30 AI大模型

千问还是非常不错

今天使用千文完成了一个网站优化的过程我觉得千问还是非常不错一些问题通过提问都得到了修正。

0178

红尘渡发表于 2026-3-29 AI大模型

GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录，在前 3 个难度级别中解决了 50% 的问题。

GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录，在前 3 个难度级别中解决了 50% 的问题。作为背景，这项高阶数学基准测试旨在极难应对，即使对于花费数年时间研究这些主题的数学专家来说也是如此。在最难的级别（称为 Tier 4）中，GPT-5.4 Pro 版本达到了 38% 的成功率。这一得分使这款新机型远远领先于其他 ...

0190

用户杜海艳发表于 2026-3-29 AI大模型

🔥谷歌最新的一篇报告。硅基神明式的 AI 奇点论，是彻头彻尾的错觉。

🔥谷歌最新的一篇报告。硅基神明式的 AI 奇点论，是彻头彻尾的错觉。未来的智能大爆炸，绝对不会是一个全知全能的超级单体大脑，而是一个由数百亿非生物大脑和人类共同组成的赛博社会。作者从进化史出发，每一次“智能大爆炸”都不是某个个体大脑升级了，而是一群脑子找到了新的协作方式。猴子的智力跟它社交圈大 ...

0223

星汉之辉发表于 2026-3-28 AI大模型

又是魔幻的一天，最顶尖的AI模型不发布，不是因为算力或研发遇到瓶颈。

又是魔幻的一天，最顶尖的AI模型不发布，不是因为算力或研发遇到瓶颈。而是因为它已经强大到，足以轻易摧毁现有的全球网络防御体系。《财富》独家爆出，Claude 最新强力模型泄漏，代号 Claude Mythos。泄漏原因很搞笑，Anthropic用于发布官博的内容管理系统（CMS）由于配置失误，泄漏了 3000 份保密文件，其中一份就 ...

0211

要修炼好心态发表于 2026-3-27 AI大模型

Harness is the New Dataset：模型智能提升的下一个关键方向

Harness is the New Dataset：模型智能提升的下一个关键方向 http://t.cn/AXI75Br3 “最近，harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。这背后对应着一个越来越清晰的变化：当基模能力逐渐成熟后，现在真正决定 agent 上限的，已经不是模型本身，而是围绕模型搭建起 ...

0205

hao898 发表于 2026-3-27 AI大模型

Claude是如何思考的

Claude是如何思考的 blog.bytebytego.com/p/how-anthropics-claude-thinks bytebytego的文章. "Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它，而 Claude 自行发展出了自己的策略，这些策略隐藏在数十亿次计算中。对于构建它的人来说，这可能感觉像一个令人不安的黑箱。因此，他们决定构建类似显微 ...

0203

贺超发表于 2026-3-27 AI大模型

林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言 AI 演进全面转向智能体

【林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言 AI 演进全面转向智能体】前阿里千问负责人林俊旸在离职长文中指出，AI 大模型正从‘推理型思考’转向‘智能体思考’。他复盘了千问团队在融合指令与思考模式时遇到的困境，并揭示了未来竞争将围绕环境设计、防作弊协议等系统工程能力展开。#…… ...

0184

水坤发表于 2026-3-27 AI大模型

在格式指令与实质任务并行时，大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。

[CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026) 在格式指令与实质任务并行时，大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测（如IFEval）孤立地测试格式遵从，无法捕捉到"认知负载"如何侵蚀 ...

0177

空中月发表于 2026-3-27 AI大模型

谷歌新型缓存技术将压缩6倍闪存需求

【#谷歌新型缓存技术将压缩6倍闪存需求#】近期，谷歌发布了名为TurboQuant的 KV 缓存压缩技术，旨在解决大语言模型（LLM）推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型，即可将键值缓存（KV Cache）压缩至3-bit精度，实现约6倍的闪存节省，同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。 ...

0181

爱深求发表于 2026-3-26 AI大模型

谷歌这个论文非常厉害，大模型推理内存革命了，节省资源非常厉害

谷歌这个论文非常厉害，大模型推理内存革命了，节省资源非常厉害怪不得昨晚美股存储跌了，有点类似DeepSeek的冲击。算法加速，让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。我一开始以为是，对内存中的大模型“KV缓存”（80%内存都是这个东西占了）搞个什么6倍的压缩算法，这样内存就可以少用了。但是要 ...

0181

FineRIk 发表于 2026-3-26 AI大模型

今日推介(第2086期)：高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习

今日推介(第2086期)：高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习、通过特征稀疏性实现注意力机制的规模化、更稀疏更高效更轻量化的 Transformer 语言模型公·众·号：爱可可爱生活 http://t.cn/AXfgADLS # ...

0211

想过发表于 2026-3-26 AI大模型

一句“嘿”吞掉22%用量配额，Claude的计费逻辑你可能从没搞清楚

【一句“嘿”吞掉22%用量配额，Claude的计费逻辑你可能从没搞清楚】快速阅读：有用户发现对一个久置的Claude Code会话发了句“hey”，用量暴涨22%。这不是bug，而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素，账单会失控得很优雅。 --- 每次你在一个旧会话 ...

0214

闻听发表于 2026-3-26 AI大模型

在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。

[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026) 在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集 ...

0225

吴歌发表于 2026-3-26 AI大模型

在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身

[AI]《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026) 在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者，而非搜索机制的设计者。每一次系 ...

0218

铉霸发表于 2026-3-26 AI大模型

🚀Anthropic 推出《Anthropic Science Blog》：AI 加速科学研究的桥梁

🚀Anthropic 推出《Anthropic Science Blog》：AI 加速科学研究的桥梁 2026 年 3 月 23 日，Anthropic 在官方 X 账号宣布推出 Anthropic Science Blog，旨在加速科学进步——这正是公司使命的核心部分。该博客将发布最新研究成果，以及科学家如何借助 AI 推动工作的真实故事。一、首发内容亮点： 1️⃣- 《Can AI do th ...

0203

梅琴发表于 2026-3-25 AI大模型

神经网络持久结构化记忆中的坐标系问题

我们提出了双视图信息素路径网络（DPPN），这是一种通过潜在槽位（latent slot）转换上的**持久信息素场（persistent pheromone field）**来路由稀疏注意力的架构。利用该架构，我们发现了神经网络实现持久结构化记忆的两个独立必要条件。通过 5 组逐步完善的实验（涵盖 5 种模型变体、4 个迁移目标，且每种条件下使用多达 ...

0194

西域·骆驼发表于 2026-3-25 AI大模型

版本避坑提醒

【版本避坑提醒】 Claude Code 新版本有个坑：缓存命中有问题，会导致消耗莫名变大。别问我怎么知道的，反正钱包会告诉你答案。降级方案： Claude Code（命令行）→ 用 2.1.77 以下插件 → 用 2.1.76 以下 Step 1：卸载当前版本 npm uninstall -g @anthropic-ai/claude-code Step 2：安装指定版本 npm install -g @ ...

0269

王荣超发表于 2026-3-25 AI大模型

最近在想一个问题：大模型和传统数据挖掘到底有什么本质区别？

最近在想一个问题：大模型和传统数据挖掘到底有什么本质区别？传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧，很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理，真正的核心在算法本身。而大模型更像是“数据的智慧”。模 ...

0232

如果夜懂我发表于 2026-3-24 AI大模型

1 234 5 6 / 6 页下一页

返回发新帖

AI大模型 今日: 0|主题: 103|排名: 18

快速发帖

AI大模型今日: 0|主题: 103|排名: 18