NVIDIA 开源的 PersonaPlex 是一个支持实时全双工(Full-Duplex)对话的语音模型,让 AI 真正实现了能边听边说、自然插话。

很多语音 AI 对话像在用“对讲机”,必须等对方说完才能说话,一旦打断就会出现尴尬的停顿或逻辑混乱,缺乏真人交流那种自然流畅的“呼吸感”。


NVIDIA 开源的 PersonaPlex 是一个支持实时全双工(Full-Duplex)对话的语音模型,让 AI 真正实现了能边听边说、自然插话。

它不仅在延迟上做了极致优化,最核心的突破在于实现了“角色”与“声音”的双重精准控制:通过文本 Prompt 定义人设,通过音频 Embedding 决定音色。

GitHub:github.com/NVIDIA/personaplex

主要功能:

- 全双工实时交互:支持同时听与说,允许用户随时打断,对话流畅度极高,告别生硬的轮流说话模式;
- 灵活的角色控制:支持通过文本提示词快速切换身份(如:睿智的老师、专业的客服、甚至是个在火星上的宇航员);
- 多样化的声音定制:预置了自然(NAT)和多样(VAR)两类声音嵌入,涵盖多种男女音色,确保人格一致性;
- 低延迟架构:基于 Moshi 架构,将 ASR、LLM 推理和 TTS 深度融合,大幅降低响应时间;
- 灵活的部署方案:支持 GPU 本地运行,针对显存不足的情况提供了 `--cpu-offload` 选项,降低硬件门槛。

代码采用 MIT 协议开源,提供 Web UI 界面,通过简单的 pip 安装即可本地运行。非常适合需要高自然度交互的虚拟助手、游戏 NPC 以及智能客服开发者使用。

##
分类