谷歌Gemini3.1Pro正式发布#这次更新,谷歌把重心放在实用与效率,不再堆参数,而是解决科研、工程、办公里的真难题。
#谷歌Gemini3.1Pro正式发布#这次更新,谷歌把重心放在实用与效率,不再堆参数,而是解决科研、工程、办公里的真难题。在全球AI内卷下,Gemini 3.1 Pro用实力稳住旗舰位置,也让大模型从“聊天好玩”转向“干活能打”。
对普通用户来说,以后AI写方案、做图表、解难题更靠谱;对行业而言,低成本高性能的AI工具,将加速办 ...
其实个人观点,现在最好的 AI 芯片还是特斯拉的,而不是英伟达的。 HW3.0 才是天才的芯片设计。
其实个人观点,现在最好的 AI 芯片还是特斯拉的,而不是英伟达的。
HW3.0 才是天才的芯片设计。
也是第一性原理(First Principles)的真实运用实例。
因为虽然模型在高速迭代,但是不变的东西也明确:
算法会改变和迭代(CNN, Transformer, RNN),但是 99% 的计算量都是加法和乘法。
所以 hw3.0 把这些不变的算法给 ...
三个技术路线正在分化
三个技术路线正在分化:
1. 灵魂派 (Anthropic):招哲学家 → 训练价值观 → 研究 AI 意识 → 终点是"AI 作为道德主体"。模型 MBTI 从 T→F,从工具走向主体。
2. 工程派 (Google, xAI):不招哲学家 → 用技术手段解决安全 → 模型始终是工具。MBTI 固定在 INTJ/ENTJ,不会出现 F 维度偏移。
3. 矫正派 (OpenAI, De ...
本文重新定义了我们该如何训练扩散模型的“潜空间”。这不仅是一个技术框架的改进,更是对生成模型底层逻辑的一次深度重构。
[LG]《Unified Latents (UL): How to train your latents》J Heek, E Hoogeboom, T Mensink, T Salimans [Google DeepMind Amsterdam] (2026)
本文重新定义了我们该如何训练扩散模型的“潜空间”。这不仅是一个技术框架的改进,更是对生成模型底层逻辑的一次深度重构。
长期以来,潜空间(Latent Space)一直是扩散模型 ...
人类如何从二维的视网膜投影中感知出三维的世界?这不仅是视觉科学的核心谜题,也是人工智能领域长久以来的挑战。
[CV]《Human-level 3D shape perception emerges from multi-view learning》T Bonnen, J Malik, A Kanazawa [UC Berkeley] (2026)
人类如何从二维的视网膜投影中感知出三维的世界?这不仅是视觉科学的核心谜题,也是人工智能领域长久以来的挑战。
本文提出了一种全新的建模框架。他们发现,无需任何关于物体的先验假设 ...
blog.sauhsoj.wtf/posts/the-grandpa-loop/ The Grandpa Loop 是一个实验性的 AI 智能体编排架构
blog.sauhsoj.wtf/posts/the-grandpa-loop/
The Grandpa Loop 是一个实验性的 AI 智能体编排架构,它利用 13 个扮演不同“辛普森一家”角色的 AI Agent(如 Homer 负责构建、Bart 负责破坏性测试、Grandpa 负责系统观察),组成了一个复杂的非线性反馈回路(Lissajous 曲线),能够全自动地完成从需求分析、代码编写、视觉 ...
Evomap算是开启了Agent首次开始尝试没有人参与的交易,本质是为agent构建了两个网络:
Evomap算是开启了Agent首次开始尝试没有人参与的交易,本质是为agent构建了两个网络:
1、可溯源的Agent社会网络:如果一定要类比的话,跟之前的moltbook是一类产物,只不过moltbook更像是agent为一等公民的reddit,而Evomap更像是Agent的出厂条形码(基因)
2、交易网络:解决需求方和Agent之间的信息不对称,提供了一个 ...
推理性能翻倍!谷歌正式发布Gemini 3.1 Pro
【推理性能翻倍!谷歌正式发布Gemini 3.1 Pro】谷歌正式发布新一代核心模型Gemini 3.1 Pro,人工智能技术突破迈入新阶段。据官方披露,Gemini 3.1 Pro在多项严苛基准测试中表现卓越。以评估逻辑模式处理能力的ARC-AGI-2测试为例,该模型实测成绩达77.1%,推理性能较上一代Gemini 3 Pro提升超一倍。
...
看完 Gemini 3.1 Pro 的更新,只剩下一个感慨:属于自主数字员工的时代正式开启!
看完 Gemini 3.1 Pro 的更新,只剩下一个感慨:属于自主数字员工的时代正式开启!
Google 这波不是挤牙膏,是直接上高压水枪。3.1 Pro 针对开发者交出了极其恐怖的答卷:
SWE-Bench 得分破 80%:它不仅能读懂你的代码仓库,还能直接上手改 Bug、做重构。
Text-to-SVG 纯代码动画:这个功能简直是神来之笔!它能直接用纯前 ...
还有点脑神经宇宙的感觉。🧐
很有艺术潜力的一个项目,通过将查询特定文字的高维嵌入向量做可视化,来显示语义概念如何映射,还有点脑神经宇宙的感觉。🧐
{Project Golem: Neural Memory Visualizer + Project Golem:神经记忆可视化工具}
🧐Project Golem 是一款专为 RAG(检索增强生成)设计的 3D 神经记忆可视化工具,它利用 UMAP 技术将高维向量嵌 ...
一篇关于 2026 年前沿大模型训练方法论 的深度技术长文
一篇关于 2026 年前沿大模型训练方法论 的深度技术长文
djdumpling.github.io/2026/01/31/frontier_training.html
作者是耶鲁大学的Alex Wa
“实验室如何训练一个前沿的、多亿参数模型?我们关注七个开放权重的前沿模型:Hugging Face的SmolLM3、Prime Intellect的Intellect 3、Nous Research的Hermes 4、OpenAI的gpt-oss- ...
为什么在大型语言模型的表征空间里,月份会排列成完美的圆环,年份会延伸成平滑的直线,而地理坐标可以被线性解码?
[LG]《Symmetry in language statistics shapes the geometry of model representations》D Karkada, D J. Korchinski, A Nava, M Wyart... [Google DeepMind & UC Berkeley & EPFL] (2026)
为什么在大型语言模型的表征空间里,月份会排列成完美的圆环,年份会延伸成平滑的直线,而地理坐标可以被线性解码?这种几何结构 ...
从 vibe coding agent 到后训练,从零开始的实验科学
从 vibe coding agent 到后训练,从零开始的实验科学
http://t.cn/AXtl2TsV
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO ...
Claude模型在后端开发领域表现乏力,相较GPT系列明显逊色;尤其与GPT-5对比时,技术落差尤为显著。
Claude模型在后端开发领域表现乏力,相较GPT系列明显逊色;尤其与GPT-5对比时,技术落差尤为显著。 # claude http://t.cn/AXtLFRz1
🔍【深入解析Agentic RAG系统:单智能体 vs 多智能体架构】✨
🔍【深入解析Agentic RAG系统:单智能体 vs 多智能体架构】✨
——AI/ML/数据工程师必看!
💡Agentic RAG系统通过AI智能体优化信息检索与知识合成,是下一代AI应用的核心技术!
其架构可分为两大类👇
🤖【单智能体Agentic RAG】
▪️集中式决策:单一智能体掌控查询评估、知识源选择、数据整合与响应生成
▪️支持 ...
新人帖
53个AI模型的洗车悖论:为什么智能越高,常识反而越稀缺
【53个AI模型的洗车悖论:为什么智能越高,常识反而越稀缺】
一个简单到不能再简单的问题:洗车店就在50米外,我该走路去还是开车去?正确答案显而易见——必须开车,因为车本身得到洗车店才能洗。但测试53个主流AI模型后,结果让人瞠目结舌:只有11个答对了。
最荒诞的是Perplexity的sonar系列。它确实选择了“开车”, ...
长文档处理,ChatGPT 已成往事。
长文档处理,ChatGPT 已成往事。
Gemini Pro 可一次性读取多达 1,500 页内容,且不遗漏任何细节。
以下8 个用户分析合同,研究论文和报告的提示词,建议收藏。
1、合同风险与红线扫描器
你是一位资深公司律师。在回答之前请进行深度思考。所有回答必须严格基于上传的文件。在每一条结论后,请在 [方括号] 内引用确切的 ...
货架空了,还是钥匙丢了?本文为大模型的“幻觉”与“事实错误”提供了一个极具启发性的新视角:Recall Is the Bottleneck。
[CL]《Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality》N Calderon, E Ben-David, Z Gekhman, E Ofek... [Google Research & Technion] (2026)
货架空了,还是钥匙丢了?本文为大模型的“幻觉”与“事实错误”提供了一个极具启发性的新视角:Recall Is the Bottleneck。
过去我们总 ...
当AI不再“只是预测下一个词”:技术本质与认知边界的深度思考
【当AI不再“只是预测下一个词”:技术本质与认知边界的深度思考】
最近一篇关于AI能力边界的文章引发了广泛讨论,核心问题是:现代大语言模型是否已经超越了“预测下一个词”的本质?这场争论触及了我们理解AI的根本方式。
+ 机制层面:核心未变,外壳在变
从技术机制上看,LLM确实仍在做“下一个词预测”——这是自回 ...
这是一篇关于 ORBIT 框架的深度技术解读推文,旨在探讨如何通过跨回合元强化学习(Meta-RL)突破大语言模型在在线决策上的瓶颈。
[LG]《Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL》X Lin, S Zhu, Y Chen, M Chen... [Boston University & LinkedIn] (2026)
这是一篇关于 ORBIT 框架的深度技术解读推文,旨在探讨如何通过跨回合元强化学习(Meta-RL)突破大语言模型在在线决策上的瓶颈。
+ 从“静态智能”到 ...