人工智能今日: 0|主题: 221|排名: 14

人类如何从二维的视网膜投影中感知出三维的世界？这不仅是视觉科学的核心谜题，也是人工智能领域长久以来的挑战。

[CV]《Human-level 3D shape perception emerges from multi-view learning》T Bonnen, J Malik, A Kanazawa [UC Berkeley] (2026) 人类如何从二维的视网膜投影中感知出三维的世界？这不仅是视觉科学的核心谜题，也是人工智能领域长久以来的挑战。本文提出了一种全新的建模框架。他们发现，无需任何关于物体的先验假设 ...

0292

Valeron83enved 发表于 2026-2-21 人工智能

blog.sauhsoj.wtf/posts/the-grandpa-loop/ The Grandpa Loop 是一个实验性的 AI 智能体编排架构

blog.sauhsoj.wtf/posts/the-grandpa-loop/ The Grandpa Loop 是一个实验性的 AI 智能体编排架构，它利用 13 个扮演不同“辛普森一家”角色的 AI Agent（如 Homer 负责构建、Bart 负责破坏性测试、Grandpa 负责系统观察），组成了一个复杂的非线性反馈回路（Lissajous 曲线），能够全自动地完成从需求分析、代码编写、视觉 ...

0291

火车开往冬天发表于 2026-2-20 人工智能

Evomap算是开启了Agent首次开始尝试没有人参与的交易，本质是为agent构建了两个网络：

Evomap算是开启了Agent首次开始尝试没有人参与的交易，本质是为agent构建了两个网络： 1、可溯源的Agent社会网络：如果一定要类比的话，跟之前的moltbook是一类产物，只不过moltbook更像是agent为一等公民的reddit，而Evomap更像是Agent的出厂条形码（基因） 2、交易网络：解决需求方和Agent之间的信息不对称，提供了一个 ...

0278

舒雅的朋友圈发表于 2026-2-20 人工智能

推理性能翻倍！谷歌正式发布Gemini 3.1 Pro

【推理性能翻倍！谷歌正式发布Gemini 3.1 Pro】谷歌正式发布新一代核心模型Gemini 3.1 Pro，人工智能技术突破迈入新阶段。据官方披露，Gemini 3.1 Pro在多项严苛基准测试中表现卓越。以评估逻辑模式处理能力的ARC-AGI-2测试为例，该模型实测成绩达77.1%，推理性能较上一代Gemini 3 Pro提升超一倍。 ...

0281

猪行天下发表于 2026-2-20 人工智能

看完 Gemini 3.1 Pro 的更新，只剩下一个感慨：属于自主数字员工的时代正式开启！

看完 Gemini 3.1 Pro 的更新，只剩下一个感慨：属于自主数字员工的时代正式开启！ Google 这波不是挤牙膏，是直接上高压水枪。3.1 Pro 针对开发者交出了极其恐怖的答卷： SWE-Bench 得分破 80%：它不仅能读懂你的代码仓库，还能直接上手改 Bug、做重构。 Text-to-SVG 纯代码动画：这个功能简直是神来之笔！它能直接用纯前 ...

0273

罗丽发表于 2026-2-20 人工智能

还有点脑神经宇宙的感觉。🧐

很有艺术潜力的一个项目，通过将查询特定文字的高维嵌入向量做可视化，来显示语义概念如何映射，还有点脑神经宇宙的感觉。🧐 {Project Golem: Neural Memory Visualizer + Project Golem：神经记忆可视化工具} 🧐Project Golem 是一款专为 RAG（检索增强生成）设计的 3D 神经记忆可视化工具，它利用 UMAP 技术将高维向量嵌 ...

0294

先姐发表于 2026-2-20 人工智能

一篇关于 2026 年前沿大模型训练方法论的深度技术长文

一篇关于 2026 年前沿大模型训练方法论的深度技术长文 djdumpling.github.io/2026/01/31/frontier_training.html 作者是耶鲁大学的Alex Wa “实验室如何训练一个前沿的、多亿参数模型？我们关注七个开放权重的前沿模型：Hugging Face的SmolLM3、Prime Intellect的Intellect 3、Nous Research的Hermes 4、OpenAI的gpt-oss- ...

0246

荷尔蒙暴民发表于 2026-2-20 人工智能

为什么在大型语言模型的表征空间里，月份会排列成完美的圆环，年份会延伸成平滑的直线，而地理坐标可以被线性解码？

[LG]《Symmetry in language statistics shapes the geometry of model representations》D Karkada, D J. Korchinski, A Nava, M Wyart... [Google DeepMind & UC Berkeley & EPFL] (2026) 为什么在大型语言模型的表征空间里，月份会排列成完美的圆环，年份会延伸成平滑的直线，而地理坐标可以被线性解码？这种几何结构 ...

0264

玎玎发表于 2026-2-19 人工智能

从 vibe coding agent 到后训练，从零开始的实验科学

从 vibe coding agent 到后训练，从零开始的实验科学 http://t.cn/AXtl2TsV 这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。作者详述了使用 verl 框架对7B模型进行监督微调（SFT）和强化学习（RL）训练的经历，指出SFT虽然提升了工具使用能力但损害了推理能力。最终，通过采用GRPO ...

0251

小苹果的清甜发表于 2026-2-19 人工智能

Claude模型在后端开发领域表现乏力，相较GPT系列明显逊色；尤其与GPT-5对比时，技术落差尤为显著。

Claude模型在后端开发领域表现乏力，相较GPT系列明显逊色；尤其与GPT-5对比时，技术落差尤为显著。 # claude http://t.cn/AXtLFRz1

0289

peterll 发表于 2026-2-19 人工智能

🔍【深入解析Agentic RAG系统：单智能体 vs 多智能体架构】✨

🔍【深入解析Agentic RAG系统：单智能体 vs 多智能体架构】✨ ——AI/ML/数据工程师必看！ 💡Agentic RAG系统通过AI智能体优化信息检索与知识合成，是下一代AI应用的核心技术！其架构可分为两大类👇 🤖【单智能体Agentic RAG】 ▪️集中式决策：单一智能体掌控查询评估、知识源选择、数据整合与响应生成 ▪️支持 ...

0292

章易发表于 2026-2-18 人工智能

新人帖 53个AI模型的洗车悖论：为什么智能越高，常识反而越稀缺

【53个AI模型的洗车悖论：为什么智能越高，常识反而越稀缺】一个简单到不能再简单的问题：洗车店就在50米外，我该走路去还是开车去？正确答案显而易见——必须开车，因为车本身得到洗车店才能洗。但测试53个主流AI模型后，结果让人瞠目结舌：只有11个答对了。最荒诞的是Perplexity的sonar系列。它确实选择了“开车”， ...

0259

把日本抹去发表于 2026-2-18 人工智能

长文档处理，ChatGPT 已成往事。

长文档处理，ChatGPT 已成往事。 Gemini Pro 可一次性读取多达 1,500 页内容，且不遗漏任何细节。以下8 个用户分析合同，研究论文和报告的提示词，建议收藏。 1、合同风险与红线扫描器你是一位资深公司律师。在回答之前请进行深度思考。所有回答必须严格基于上传的文件。在每一条结论后，请在 [方括号] 内引用确切的 ...

0269

刘益敏发表于 2026-2-18 人工智能

货架空了，还是钥匙丢了？本文为大模型的“幻觉”与“事实错误”提供了一个极具启发性的新视角：Recall Is the Bottleneck。

[CL]《Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality》N Calderon, E Ben-David, Z Gekhman, E Ofek... [Google Research & Technion] (2026) 货架空了，还是钥匙丢了？本文为大模型的“幻觉”与“事实错误”提供了一个极具启发性的新视角：Recall Is the Bottleneck。过去我们总 ...

0265

李明彪发表于 2026-2-18 人工智能

当AI不再“只是预测下一个词”：技术本质与认知边界的深度思考

【当AI不再“只是预测下一个词”：技术本质与认知边界的深度思考】最近一篇关于AI能力边界的文章引发了广泛讨论，核心问题是：现代大语言模型是否已经超越了“预测下一个词”的本质？这场争论触及了我们理解AI的根本方式。 + 机制层面：核心未变，外壳在变从技术机制上看，LLM确实仍在做“下一个词预测”——这是自回 ...

0277

蕙心纨质发表于 2026-2-17 人工智能

这是一篇关于 ORBIT 框架的深度技术解读推文，旨在探讨如何通过跨回合元强化学习（Meta-RL）突破大语言模型在在线决策上的瓶颈。

[LG]《Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL》X Lin, S Zhu, Y Chen, M Chen... [Boston University & LinkedIn] (2026) 这是一篇关于 ORBIT 框架的深度技术解读推文，旨在探讨如何通过跨回合元强化学习（Meta-RL）突破大语言模型在在线决策上的瓶颈。 + 从“静态智能”到 ...

0255

晚霞行千里发表于 2026-2-17 人工智能

左脚踩右脚，螺旋升天啦！

这个项目把大模型训练过程中的知识点都总结成了skill github.com/Orchestra-Research/AI-Research-SKILLs 也就是理论上以后可以让Agent自己训练大模型，左脚踩右脚，螺旋升天啦！ #HOW I AI#

0253

娜姐说说发表于 2026-2-17 人工智能

WebMcp致力于推动网站的第二受众用户：AI Agent也是网站的"一等公民"（人类是网站第一受众用户）

WebMcp致力于推动网站的第二受众用户：AI Agent也是网站的"一等公民"（人类是网站第一受众用户），是由Google 和 Microsoft 联合推动的 W3C 标准提案，已在chrome 146预览版支持过去：以往我们让 AI Agent"帮我订行程机票和酒店"，得像人一样操作，通过多模态视觉模型截图且理解整个网页，像盲人一样摸索网页——截屏看 ...

0257

失戀的謊言发表于 2026-2-16 人工智能

如果不给大模型指定任务和话题，只给个中性的开头（如 “Actually,” “Let’s think step by step,” ），让模型自由思考，会发

如果不给大模型指定任务和话题，只给个中性的开头（如 “Actually,” “Let’s think step by step,” ），让模型自由思考，会发生什么？ together ai做了这项蛮有意思的研究。 GPT-OSS 更容易谈论编程和数学，两者加起来超过输出的一半； Llama 更偏文学和叙事性文本，技术内容相对少； DeepSeek 生成宗教相关内容的比例 ...

0272

与君经年发表于 2026-2-16 人工智能

Anthropic 和 OpenAI 最近先后发布了各自的"快速模式"，都是给 AI 编程助手加速。

Anthropic 和 OpenAI 最近先后发布了各自的"快速模式"，都是给 AI 编程助手加速。但仔细看，两家走的是完全不同的技术路线，背后的产品哲学也很不一样。【1】两种快速模式，到底有什么区别 Anthropic 的 Fast Mode 在 2 月 8 日上线，面向 Claude Code 和 API 用户。开启后，Opus 4.6 的输出速度从约 65 token/秒提升到 ...

0254

龟小豹发表于 2026-2-16 人工智能

1 ... 4 5 6 7 8 91011 12 / 12 页下一页

返回发新帖

人工智能 今日: 0|主题: 221|排名: 14

快速发帖

人工智能今日: 0|主题: 221|排名: 14