订阅

AI大模型 今日: 0|主题: 98|排名: 17 

  • 中国大模型版图全扫描:谁是真正的玩家?
    【中国大模型版图全扫描:谁是真正的玩家?】 快速阅读: 中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场,DeepSeek以量化交易副业身份创造了大量技术创新,六小虎靠开放权重+廉价推理维持存在感,但长期生存能力存疑。 --- 字节跳动旗下的Doubao是中国市场当之无愧的第一,Seedance ...
    0133 金灿湖 发表于 2026-3-24 AI大模型
  • 抢楼 有朋友问我,为啥在网页使用 AI 大模型,跟自己调用 API 时感觉不一样,差别很大呢?
    有朋友问我,为啥在网页使用 AI 大模型,跟自己调用 API 时感觉不一样,差别很大呢? 因为网页里的 AI 大模型,除了各项参数外,都内置了默认的系统提示词 system-prompt,细节可以参考下面几个开源项目。 1、system-prompts-and-models-of-ai-tools,132k Star,近 30 个 AI 大模型,AI 编程工具的系统提示词。传送门:g ...
    0106 憬溺 发表于 2026-3-23 AI大模型
  • 让AI帮我总结这篇论文
    让AI帮我总结这篇论文:http://t.cn/AXfATCbq ——— 这篇发表于《Theory and Society》的论文运用大语言模型(LLM),对1960年至2024年间约60万篇英文社会科学摘要进行了意识形态分析,得出了五个关键发现。其核心结论是,社会科学研究在意识形态上长期且日益倾向于左翼。 以下是该论文的详细总结: 研究核心发现 ...
    097 伍嶽 发表于 2026-3-23 AI大模型
  • Sebastian Raschka的新长篇文章:A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南
    Sebastian Raschka的新长篇文章:A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南 地址:magazine.sebastianraschka.com/p/visual-attention-variants 这篇文章整理了现代大语言模型中为了提高推理效率和内存占用而演进出的各种注意力机制变体。 “在本文中,我认为回顾近年来 ...
    098 大优 发表于 2026-3-23 AI大模型
  • 大家都在追求更大的LLM...​​ ​​但GPU显存正在角落里默默流泪。😭​​
    大家都在追求更大的LLM...​​ ​​但GPU显存正在角落里默默流泪。😭​​ 近年来,大型语言模型(LLMs)变得无比巨大 🦾,拥有数十亿(甚至数万亿)参数。它们功能强大到难以置信……但同时也极度贪婪地消耗着显存。 而这正是问题变得棘手的地方。 → LLMs(如 GPT-4, LLaMA, Claude)需要 ​​数十GB的GPU显存 (VRAM ...
    0113 林小北 发表于 2026-3-23 AI大模型
  • deepseek是什么?deepseek究竟是什么?
    DeepSeek是一种基于深度学习和数据挖掘技术的智能搜索与分析系统,它通过深度学习模型理解数据的上下文语义,实现更智能化的搜索与分析。DeepSeek的核心技术、应用领域、功能特点及其面临的挑战,展望其在未来智能化转型中的重要作用。在大数据时代,如何从海量数据中提取有价值的信息,成为各行各业面临的共同挑战。DeepSe ...
    097 老高—深圳代理 发表于 2026-3-22 AI大模型
  • 全球生成式AI应用排名出炉 韩国A.与Papago跻身前50位[围观]
    【全球生成式AI应用排名出炉 韩国A.与Papago跻身前50位[围观]】在全球生成式人工智能(AI)服务竞争日趋激烈的背景下,韩国本土AI服务“A.”和“Papago”跻身全球AI网页及移动端用户排名前50位。 整体AI市场中,ChatGPT继续以压倒性优势保持领先地位,谷歌的Gemini正凭借付费用户的快速增长形成追赶态势。 据美国风投公司 ...
    098 fjord 发表于 2026-3-22 AI大模型
  • 小米交作业了! 一口气放出两个新模型!
    小米交作业了! 一口气放出两个新模型! 前几天放出的匿名模型 Hunter Alpha, 和 Healer Alpha 终于官宣了! Hunter Alpha 是小米 MiMo-V2-Pro, 1M上下文, 1T 参数量 42B 激活参数, 支持多模态输入, 输出文本. Healer Alpha 是小米 MiMo-V2-Omni, 262K上下文, 支持文本, 音频, 图片, 视频输入. 从架构上看, MiMo-V2-Pro 沿 ...
    0102 听雨观云 发表于 2026-3-22 AI大模型
  • Kimi K2.5被同行点赞
    Kimi K2.5被同行点赞 Cursor 联合创始人 Aman Sanger:我们基于困惑度评测测试了很多底座模型,Kimi K2.5 被证明是最强的;在此之后,我们又进行了持续预训练和高算力强化学习训练(规模扩大了 4 倍);强大的底座、持续预训练、强化学习,以及 Fireworks 的推理和强化学习采样器结合在一起,让 Composer-2 达到了前沿水平 ...
    0105 我爱榛子 发表于 2026-3-22 AI大模型
  • [CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026)
    [CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026) 大型语言模型中,残差连接以固定权重均匀叠加所有层的输出,导致隐藏状态幅值随深度线性膨胀。深层网络被迫输出越来越大的值才能保持影响力,早期层的信息被淹没且无法被选择性召回——这是PreNorm架构的结构性缺陷,而非训练技巧可以修补 ...
    0123 高原蓝 发表于 2026-3-22 AI大模型
  • 我以前介绍过Kitten TTS,只有25M的语音模型,可以用CPU推理,甚至手机也能跑。
    我以前介绍过Kitten TTS,只有25M的语音模型,可以用CPU推理,甚至手机也能跑。 上个月,他们发布了Kitten TTS v0.8,也才80M,依然可以在普通电脑上跑,甚至手机上跑,超级轻量级。 只是,还是不支持中文,这是一个遗憾,希望他们能尽快补齐。 特点: 超轻量级——型号大小从25 MB(int8)到80 MB,适合边缘部署 CPU优 ...
    0108 罗丽 发表于 2026-3-22 AI大模型
  • OpenClaw 创始人 Peter 转发了这个最适合 OpenClaw 的模型排行榜,图 2 这个榜是任务成功率榜。
    OpenClaw 创始人 Peter 转发了这个最适合 OpenClaw 的模型排行榜,图 2 这个榜是任务成功率榜。 前三名是 gemini-3-flash,minimax m2.1,kimi k2.5。 Claude opus 等一堆强悍模型反倒排后面。 看了下测试项目,一共有 23 个,大多数是比较基础的测试。 ​​​ ...
    0109 疯狂的社会一哥 发表于 2026-3-21 AI大模型
  • Anthropic威胁OpenCode移除Claude集成引发争议
    【Anthropic威胁OpenCode移除Claude集成引发争议】 快速阅读:Anthropic要求开源项目OpenCode移除所有Claude相关功能,包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式,官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满,许多人开始转向ChatGPT。 --- Anthropic有两款产品:按使用量计费 ...
    0134 相忘 发表于 2026-3-21 AI大模型
  • 🚨突发新闻:Qwen 团队刚刚发布了他们的官方代理框架,它包含了所有功能。
    🚨突发新闻:Qwen 团队刚刚发布了他们的官方代理框架,它包含了所有功能。 无需拼接第三方库。无需对抗抽象概念。 Qwen-Agent 为您提供: →框架内直接内置的原生函数调用 →开箱即用的安全代码解释器沙箱 → RAG 和 MCP 支持包括 →用于浏览器原生代理工作流程的 Chrome 扩展程序 由构建模型的团队开发,所以它运行稳 ...
    0141 绿叶诗笺 发表于 2026-3-20 AI大模型
  • 孤独大脑:哪个大模型最好用?
    孤独大脑:哪个大模型最好用? X上呼声最高的“AI工作伙伴”,是Claude。很多人说它“目前最诚实、最有用”,不拍马屁、代码无敌、擅长深度推理、长上下文写作。 此外,Gemini 是“多模态之王 + 研究神器”,Grok是 “实时资讯 + 直男 AI”,而GPT是“全能选手 + 日常稳健”。 以上,也是我日常使用这四种模型的顺序,C ...
    0122 林小北 发表于 2026-3-19 AI大模型
  • 🚀MiniMax-M2.7 上线 Ollama Cloud:88% 自进化胜率,SWE-Pro 56.22% 直逼 Opus
    🚀MiniMax-M2.7 上线 Ollama Cloud:88% 自进化胜率,SWE-Pro 56.22% 直逼 Opus 3 月 18 日,Ollama 官方宣布 MiniMax-M2.7 已正式上线 Ollama Cloud,定位“专为 coding 和 agentic tasks 打造”。 这不是本地权重,而是云端托管模型,开发者零门槛即可调用。 核心亮点(MiniMax 官方发布) 1、首款深度参与自身进化的 ...
    0146 attribt 发表于 2026-3-19 AI大模型
  • 刚刚小米在mimo官网正式公开了mimo-v2大模型系列的新成员,有Pro,omni和tts。
    刚刚小米在mimo官网正式公开了mimo-v2大模型系列的新成员,有Pro,omni和tts。 其中mimo-v2-pro是一个1t参数大模型,激活了42b,水平基本上在国际第二梯队,国内第一梯队。同时小米也承认,一周前悄悄上线的匿名大模型Hunter Alpha就是mimo-v2-pro的早期测试版本。 这个匿名模型刚上线不久,就成了open router的token消 ...
    0109 果如 发表于 2026-3-19 AI大模型
  • 试了一下智谱刚出的 GLM-5-Turbo 模型,挺牛逼啊,太强了,又快又好!
    试了一下智谱刚出的 GLM-5-Turbo 模型,挺牛逼啊,太强了,又快又好! 这个模型是专门用来面向 OpenClaw 这种 Agent 的场景深度优化的。 输出速度非常快。它的提示遵循和工具链调用很稳定,在前端的表现上也不错。 据他们自己说,这个模型在以下核心能力上都变得非常强,并做了专项的迭代:工具调用、指令遵循、定时和 ...
    0113 此生不忘 发表于 2026-3-17 AI大模型
  • 3月16日上午消息,今日,智谱发布首个专为龙虾场景深度优化的通用大模型GLM-5-Turbo,并在发布时同步上调了GLM-5-Turbo的API价格,幅度为20%。
    3月16日上午消息,今日,智谱发布首个专为龙虾场景深度优化的通用大模型GLM-5-Turbo,并在发布时同步上调了GLM-5-Turbo的API价格,幅度为20%。根据端到端龙虾评测基准ZClawBench评测结果,GLM-5-Turbo在OpenClaw场景中的表现相比GLM-5提升显著,在多项关键任务上整体领先于多家主流模型。值得一提的是,伴随这款“龙虾专供 ...
    0119 春春欲动 发表于 2026-3-16 AI大模型
  • AI 大佬 Sebastian Raschka 搞了一份全球 LLM 大模型的架构图合集。
    AI 大佬 Sebastian Raschka 搞了一份全球 LLM 大模型的架构图合集。 图片非常精美,再也不用到处找图了。 传送门:sebastianraschka.com/llm-architecture-gallery/ ## ​​​
    0131 老高—深圳代理 发表于 2026-3-16 AI大模型
  • 下一页 »

    快速发帖

    还可输入 120 个字符
    您需要登录后才可以发帖 登录 | 立即注册

    本版积分规则

    关注公众号

    相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

    在本版发帖
    关注公众号
    返回顶部