微软的AI部门刚刚发了三款自研模型(看来真的是有点不想要OpenAI了),微软的自研模型叫MAI。
微软的AI部门刚刚发了三款自研模型(看来真的是有点不想要OpenAI了),微软的自研模型叫MAI。
第一个,MAI-Transcribe-1 (语音转文本)
这是目前微软最强的**语音识别(STT)**模型,旨在直接竞争 OpenAI 的 Whisper。
性能: 在 25 种主流语言的测试中,平均字词错误率仅 3.8%,全面超越 Whisper-large-v3。
速度: 批量 ...
Qwen3.6 可能会部分开源
Qwen3.6 可能会部分开源
Gemma 4 发布:面向推理与本地部署的开源模型
Gemma 4 发布:面向推理与本地部署的开源模型
Google DeepMind 推出新一代开源模型 Gemma 4,提供 E2B、E4B、26B MoE 与 31B Dense 四种规格,覆盖移动端到工作站等多类硬件。
Gemma 4 基于 Gemini 3 技术,支持多步推理、函数调用、结构化输出、代码生成,并具备视频、图像与音频处理能力。模型提供最长 256K 上下文窗口 ...
谷歌放出了最新开源模型:Gemma 4,型号从手机到工作站全覆盖
谷歌放出了最新开源模型:Gemma 4,型号从手机到工作站全覆盖
E2B/E4B/26B MoE/31B Dense,原生支持140+语言
原生Agent工作流,函数调用、结构化JSON输出、系统指令
小型号128K上下文,大型号256K上下文
支持视频/图像输入,小型号还支持音频输入
26B/31B,单张H100 80GB可跑全精度;量化后消费级 GPU可跑
E2B/E4B, ...
谷歌发布 Gemma 4 开源大模型,31B 参数性能达头部水准
【谷歌发布 Gemma 4 开源大模型,31B 参数性能达头部水准】谷歌推出四种规格的 Gemma 4 大模型,其中 31B 模型在行业标准榜单中位列全球开源模型第三。全系模型不仅具备高级推理与智能体工作流能力,还原生支持多模态处理与超长上下文,E2B/E4B 模型更专为端侧设备优化,可实现完全离线、近零延迟……
...
OpenAI 发布 GPT-5.4:面向专业工作,强化表格、文档、编程与智能体能力
2026 年 3 月 5 日,OpenAI 正式发布 GPT-5.4,并同步上线 ChatGPT、API 和 Codex。OpenAI 将其定义为“面向专业工作的最强且最高效前沿模型”,同时还推出了更高性能版本 GPT-5.4 Pro,重点服务复杂任务场景。
从官方定位来看,GPT-5.4 这次的升级重点非常明确,不只是继续提升推理能力,而是把推理、编程和 agentic wor ...
世界模型不会取代LLM,它是LLM缺失的那一层
【世界模型不会取代LLM,它是LLM缺失的那一层】
快速阅读: 世界模型正从学术概念走向主流讨论,但“取代LLM”是个假命题。更准确的描述是:LLM处理语言和推理,世界模型负责物理仿真和因果接地,两者将形成分层协作的架构。目前的应用重心集中在机器人领域,非物理领域的潜力仍被严重低估。
---
在Nvidia的GTC大会上, ...
过去24小时,AI 圈的空气里,都是焦灼和狂欢。
过去24小时,AI 圈的空气里,都是焦灼和狂欢。
先爆的是 Claude Code。
Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。
原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。
谁也没想到,第 ...
Google 宣布免费开放 Gemini 2.0 等 AI 工具
【Google 宣布免费开放 Gemini 2.0 等 AI 工具】
为了进一步推动 AI 技术的普及并提升用户的生产力,Google 宣布将多款强大的 AI 工具免费开放给全球用户使用,其中包括备受瞩目的 Gemini 2.0 和 NotebookLM。大大幅降低个人和专业用户使用高级 AI 工具的门槛[笑cry][惊恐]
...
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。新模型拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别语言和方言数量多达113种,还惊喜地涌现出 ...
阿里巴巴最近推出的Qwen3.5系列模型广受好评,尤其是122b和27b这两个小模型。
阿里巴巴最近推出的Qwen3.5系列模型广受好评,尤其是122b和27b这两个小模型。
27b这个模型,编程/Agent能力逆天,媲美GPT 5.2 codex
之前我还说本地化部署AI+OC,Minimax M2.5是高性价比的选择,现在看来Qwen 3.5这两个小模型或许是性价比更加爆表的选择
...
和一位给OpenClaw贡献了核心代码的朋友聊天,几点感受
和一位给OpenClaw贡献了核心代码的朋友聊天,几点感受—-
❶不要再为人类开发产品,一切为了agent。
❷大模型目前还只是一个神经元,要进化为大脑,还必须通过架构升级解决复杂任务来实现。
❸顶尖玩家在做的事有三个:记忆、测试和约束。
❹大模型能力每7个月翻1倍,完全是一项“复利工程”,而绝大部分人的使用速度,像 ...
处理大型复杂文档,ChatGPT 跟 claude 的差距就会非常明显
处理大型复杂文档,ChatGPT 跟 claude 的差距就会非常明显
GPT 显然无法在理解高维理念的前提下展开总体规划,它很容易陷入局部一路向前,基本上一步正确的步子都迈不出,只有你给它写清楚,它来执行才没问题
opus4.6可以做到,但有时候对高维理念理解有偏差,但你稍微提醒即可,它就迅速按照意图展开规划。当然,opus4.6 ...
谷歌开源了一个时间序列基础模型。
谷歌开源了一个时间序列基础模型。
它无需训练即可处理任何数据。
与传统模型不同,TimesFM 无需针对特定数据集进行训练,开箱即可进行预测。
基于 1000 亿个真实世界时间点的交通、天气和需求预测数据进行训练。
看起来挺牛逼。
...
谷歌发布的新人工智能报告。人类历史上的每一次智能大爆发都是社会性的,而非个体性的。
谷歌发布的新人工智能报告。人类历史上的每一次智能大爆发都是社会性的,而非个体性的。
这些作者提出,将人工智能“奇点”定义为一个单一的超级智能大脑通过自我提升达到神一般智慧的观点是完全错误的。
这与任何设计多智能体系统的人都密切相关。他们观察到,像 DeepSeek-R1 这样的前沿推理模型仅通过强化学习就能自 ...
之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。
之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。
地址:github.com/jingyaogong/minimind
它还有一个兄弟项目:训练小型视觉模型的 github.com/jingyaog ...
在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。
[CV]《End-to-End Training for Unified Tokenization and Latent Denoising》S Duggal, X Bai, Z Wu, R Zhang… [MIT & Adobe] (2026)
在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。这种割裂导致生成目标的梯度永远无法塑造表示空间 ...
千问还是非常不错
今天使用千文完成了一个网站优化的过程我觉得千问还是非常不错一些问题通过提问都得到了修正。
GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录,在前 3 个难度级别中解决了 50% 的问题。
GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录,在前 3 个难度级别中解决了 50% 的问题。
作为背景,这项高阶数学基准测试旨在极难应对,即使对于花费数年时间研究这些主题的数学专家来说也是如此。
在最难的级别(称为 Tier 4)中,GPT-5.4 Pro 版本达到了 38% 的成功率。
这一得分使这款新机型远远领先于其他 ...
🔥谷歌最新的一篇报告。 硅基神明式的 AI 奇点论,是彻头彻尾的错觉。
🔥谷歌最新的一篇报告。
硅基神明式的 AI 奇点论,是彻头彻尾的错觉。
未来的智能大爆炸,绝对不会是一个全知全能的超级单体大脑,而是一个由数百亿非生物大脑和人类共同组成的赛博社会。
作者从进化史出发,每一次“智能大爆炸”都不是某个个体大脑升级了,而是一群脑子找到了新的协作方式。
猴子的智力跟它社交圈大 ...