微软的AI部门刚刚发了三款自研模型（看来真的是有点不想要OpenAI了），微软的自研模型叫MAI。

周小宝武汉 · 发表于 2026-4-3 13:38:50

微软的AI部门刚刚发了三款自研模型（看来真的是有点不想要OpenAI了），微软的自研模型叫MAI。

第一个，MAI-Transcribe-1 (语音转文本)
这是目前微软最强的**语音识别（STT）**模型，旨在直接竞争 OpenAI 的 Whisper。
性能：在 25 种主流语言的测试中，平均字词错误率仅 3.8%，全面超越 Whisper-large-v3。
速度：批量转写速度比 Azure 现有的 Fast 方案快 2.5 倍。
应用：已开始在 Microsoft Teams 和 Copilot 的语音模式中进行测试。

第二个是，MAI-Voice-1 (文本转语音)
一款极速的**语音生成（TTS）**模型，主打超高效率和逼真度。
效率：仅需 1 秒计算即可生成 60 秒音频，支持长文本中保持音色一致。
克隆：只需几秒钟的原始音频样本，即可创建高度还原的自定义数字声音。
定价：每 100 万字符收费 22 美元。

第三个是MAI-Image-2 (文生图)
这是微软自研图像生成模型的第二代迭代（MAI-Image-1 发布于 2025 年末）。
排名：发布即跻身 Arena.ai 图像模型榜单前三。
速度：生成速度较前代提升一倍以上，具有极佳的构图和文字理解能力。
整合：已全面接入 Bing、PowerPoint 以及 Copilot，并为企业用户提供更有竞争力的 Token 定价。#ai#

微软的AI部门刚刚发了三款自研模型（看来真的是有点不想要OpenAI了），微软的自研模型叫MAI。

本帖子中包含更多资源