AI大模型一起港湾

LLM 是人类有史以来最强大的通用工具

LLM 是人类有史以来最强大的通用工具 Agent 则第一次让这种力量具备了持续进入现实、改造现实的可能直到今天，人类对如何真正开发 LLM 的潜能，依然处于近乎蒙圈的早期阶段我们已经看到的，可能连它全部潜力的 0.1% 都不到在实践中发挥想象力，创造性的解决一切问题 ...

0195

短腿小矮基发表于 2026-3-24 AI大模型

很有趣的一篇论文。

很有趣的一篇论文。字节跳动实现了基于深度的注意力机制，并将其与序列注意力直接结合。 P.S. 现在的论文相较于十年前的，大多都很无趣。 ##

0209

憬溺发表于 2026-3-24 AI大模型

刚才用Codex coding，模型GPT-5.4，它在思考的时候，出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码…

刚才用Codex coding，模型GPT-5.4，它在思考的时候，出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码……赛车的那个……当时没截图，但我大受震撼。[流汗] 这才是正儿八经的大模型投毒，或者说，大模型在学习（爬网）的时候被毒害了。[笑cry]#人工智能##ai# ...

0192

陈连利发表于 2026-3-24 AI大模型

在对话记忆检索领域，如何在有限token预算内从海量历史会话中精准召回相关证据，是悬而未决的难题。

[LG]《SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval》J Derehag, C Calva, T Ghiurau [Midbrain] (2026) 在对话记忆检索领域，如何在有限token预算内从海量历史会话中精准召回相关证据，是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用 ...

0232

小鱼急急发表于 2026-3-24 AI大模型

在形式化数学推理领域，反例生成长期处于被忽视的角落。

[AI]《Learning to Disprove: Formal Counterexample Generation with Large Language Models》Z Li, Z Li, K Yang, X Ma… [ETH Zurich & University of Toronto & MiroMind] (2026) 在形式化数学推理领域，反例生成长期处于被忽视的角落。现有AI系统几乎专注于定理证明，而反例——那个能在一秒内摧毁一个普遍猜想的具 ...

0230

Valeron83enved 发表于 2026-3-24 AI大模型

中国大模型版图全扫描：谁是真正的玩家？

【中国大模型版图全扫描：谁是真正的玩家？】快速阅读：中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场，DeepSeek以量化交易副业身份创造了大量技术创新，六小虎靠开放权重+廉价推理维持存在感，但长期生存能力存疑。 --- 字节跳动旗下的Doubao是中国市场当之无愧的第一，Seedance ...

0236

金灿湖发表于 2026-3-24 AI大模型

有朋友问我，为啥在网页使用 AI 大模型，跟自己调用 API 时感觉不一样，差别很大呢？

有朋友问我，为啥在网页使用 AI 大模型，跟自己调用 API 时感觉不一样，差别很大呢？因为网页里的 AI 大模型，除了各项参数外，都内置了默认的系统提示词 system-prompt，细节可以参考下面几个开源项目。 1、system-prompts-and-models-of-ai-tools，132k Star，近 30 个 AI 大模型，AI 编程工具的系统提示词。传送门：g ...

0177

憬溺发表于 2026-3-23 AI大模型

让AI帮我总结这篇论文

让AI帮我总结这篇论文：http://t.cn/AXfATCbq ——— 这篇发表于《Theory and Society》的论文运用大语言模型（LLM），对1960年至2024年间约60万篇英文社会科学摘要进行了意识形态分析，得出了五个关键发现。其核心结论是，社会科学研究在意识形态上长期且日益倾向于左翼。以下是该论文的详细总结：研究核心发现 ...

0182

伍嶽发表于 2026-3-23 AI大模型

Sebastian Raschka的新长篇文章：A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南

Sebastian Raschka的新长篇文章：A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南地址：magazine.sebastianraschka.com/p/visual-attention-variants 这篇文章整理了现代大语言模型中为了提高推理效率和内存占用而演进出的各种注意力机制变体。 “在本文中，我认为回顾近年来 ...

0181

大优发表于 2026-3-23 AI大模型

大家都在追求更大的LLM... 但GPU显存正在角落里默默流泪。😭

大家都在追求更大的LLM... 但GPU显存正在角落里默默流泪。😭 近年来，大型语言模型（LLMs）变得无比巨大 🦾，拥有数十亿（甚至数万亿）参数。它们功能强大到难以置信……但同时也极度贪婪地消耗着显存。而这正是问题变得棘手的地方。 → LLMs（如 GPT-4, LLaMA, Claude）需要数十GB的GPU显存 (VRAM ...

0213

林小北发表于 2026-3-23 AI大模型

deepseek是什么？deepseek究竟是什么？

DeepSeek是一种基于深度学习和数据挖掘技术的智能搜索与分析系统，它通过深度学习模型理解数据的上下文语义，实现更智能化的搜索与分析。DeepSeek的核心技术、应用领域、功能特点及其面临的挑战，展望其在未来智能化转型中的重要作用。在大数据时代，如何从海量数据中提取有价值的信息，成为各行各业面临的共同挑战。DeepSe ...

0187

老高—深圳代理发表于 2026-3-22 AI大模型

全球生成式AI应用排名出炉韩国A.与Papago跻身前50位[围观]

【全球生成式AI应用排名出炉韩国A.与Papago跻身前50位[围观]】在全球生成式人工智能（AI）服务竞争日趋激烈的背景下，韩国本土AI服务“A.”和“Papago”跻身全球AI网页及移动端用户排名前50位。整体AI市场中，ChatGPT继续以压倒性优势保持领先地位，谷歌的Gemini正凭借付费用户的快速增长形成追赶态势。据美国风投公司 ...

0190

fjord 发表于 2026-3-22 AI大模型

小米交作业了! 一口气放出两个新模型!

小米交作业了! 一口气放出两个新模型! 前几天放出的匿名模型 Hunter Alpha, 和 Healer Alpha 终于官宣了! Hunter Alpha 是小米 MiMo-V2-Pro, 1M上下文, 1T 参数量 42B 激活参数, 支持多模态输入, 输出文本. Healer Alpha 是小米 MiMo-V2-Omni, 262K上下文, 支持文本, 音频, 图片, 视频输入. 从架构上看, MiMo-V2-Pro 沿 ...

0198

听雨观云发表于 2026-3-22 AI大模型

Kimi K2.5被同行点赞

Kimi K2.5被同行点赞 Cursor 联合创始人 Aman Sanger：我们基于困惑度评测测试了很多底座模型，Kimi K2.5 被证明是最强的；在此之后，我们又进行了持续预训练和高算力强化学习训练（规模扩大了 4 倍）；强大的底座、持续预训练、强化学习，以及 Fireworks 的推理和强化学习采样器结合在一起，让 Composer-2 达到了前沿水平 ...

0192

我爱榛子发表于 2026-3-22 AI大模型

[CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026)

[CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026) 大型语言模型中，残差连接以固定权重均匀叠加所有层的输出，导致隐藏状态幅值随深度线性膨胀。深层网络被迫输出越来越大的值才能保持影响力，早期层的信息被淹没且无法被选择性召回——这是PreNorm架构的结构性缺陷，而非训练技巧可以修补 ...

0231

高原蓝发表于 2026-3-22 AI大模型

我以前介绍过Kitten TTS，只有25M的语音模型，可以用CPU推理，甚至手机也能跑。

我以前介绍过Kitten TTS，只有25M的语音模型，可以用CPU推理，甚至手机也能跑。上个月，他们发布了Kitten TTS v0.8，也才80M，依然可以在普通电脑上跑，甚至手机上跑，超级轻量级。只是，还是不支持中文，这是一个遗憾，希望他们能尽快补齐。特点：超轻量级——型号大小从25 MB（int8）到80 MB，适合边缘部署 CPU优 ...

0205

罗丽发表于 2026-3-22 AI大模型

OpenClaw 创始人 Peter 转发了这个最适合 OpenClaw 的模型排行榜，图 2 这个榜是任务成功率榜。

OpenClaw 创始人 Peter 转发了这个最适合 OpenClaw 的模型排行榜，图 2 这个榜是任务成功率榜。前三名是 gemini-3-flash，minimax m2.1，kimi k2.5。 Claude opus 等一堆强悍模型反倒排后面。看了下测试项目，一共有 23 个，大多数是比较基础的测试。 ...

0204

疯狂的社会一哥发表于 2026-3-21 AI大模型

Anthropic威胁OpenCode移除Claude集成引发争议

【Anthropic威胁OpenCode移除Claude集成引发争议】快速阅读：Anthropic要求开源项目OpenCode移除所有Claude相关功能，包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式，官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满，许多人开始转向ChatGPT。 --- Anthropic有两款产品：按使用量计费 ...

0232

相忘发表于 2026-3-21 AI大模型

🚨突发新闻：Qwen 团队刚刚发布了他们的官方代理框架，它包含了所有功能。

🚨突发新闻：Qwen 团队刚刚发布了他们的官方代理框架，它包含了所有功能。无需拼接第三方库。无需对抗抽象概念。 Qwen-Agent 为您提供： →框架内直接内置的原生函数调用 →开箱即用的安全代码解释器沙箱 → RAG 和 MCP 支持包括 →用于浏览器原生代理工作流程的 Chrome 扩展程序由构建模型的团队开发，所以它运行稳 ...

0228

绿叶诗笺发表于 2026-3-20 AI大模型

孤独大脑：哪个大模型最好用？

孤独大脑：哪个大模型最好用？ X上呼声最高的“AI工作伙伴”，是Claude。很多人说它“目前最诚实、最有用”，不拍马屁、代码无敌、擅长深度推理、长上下文写作。此外，Gemini 是“多模态之王 + 研究神器”，Grok是 “实时资讯 + 直男 AI”，而GPT是“全能选手 + 日常稳健”。以上，也是我日常使用这四种模型的顺序，C ...

0218

林小北发表于 2026-3-19 AI大模型

AI大模型今日: 0|主题: 103|排名: 18

快速发帖

AI大模型 今日: 0|主题: 103|排名: 18

快速发帖

AI大模型今日: 0|主题: 103|排名: 18