第一个,MAI-Transcribe-1 (语音转文本)
这是目前微软最强的**语音识别(STT)**模型,旨在直接竞争 OpenAI 的 Whisper。
性能: 在 25 种主流语言的测试中,平均字词错误率仅 3.8%,全面超越 Whisper-large-v3。
速度: 批量转写速度比 Azure 现有的 Fast 方案快 2.5 倍。
应用: 已开始在 Microsoft Teams 和 Copilot 的语音模式中进行测试。
第二个是,MAI-Voice-1 (文本转语音)
一款极速的**语音生成(TTS)**模型,主打超高效率和逼真度。
效率: 仅需 1 秒计算即可生成 60 秒音频,支持长文本中保持音色一致。
克隆: 只需几秒钟的原始音频样本,即可创建高度还原的自定义数字声音。
定价: 每 100 万字符收费 22 美元。
第三个是MAI-Image-2 (文生图)
这是微软自研图像生成模型的第二代迭代(MAI-Image-1 发布于 2025 年末)。
排名: 发布即跻身 Arena.ai 图像模型榜单前三。
速度: 生成速度较前代提升一倍以上,具有极佳的构图和文字理解能力。
整合: 已全面接入 Bing、PowerPoint 以及 Copilot,并为企业用户提供更有竞争力的 Token 定价。#ai#