NVIDIA 开源的 PersonaPlex 是一个支持实时全双工（Full-Duplex）对话的语音模型，让 AI 真正实现了能边听边说、自然插话。

苏北小哥

2026-04-05 18:37:11

很多语音 AI 对话像在用“对讲机”，必须等对方说完才能说话，一旦打断就会出现尴尬的停顿或逻辑混乱，缺乏真人交流那种自然流畅的“呼吸感”。

NVIDIA 开源的 PersonaPlex 是一个支持实时全双工（Full-Duplex）对话的语音模型，让 AI 真正实现了能边听边说、自然插话。

它不仅在延迟上做了极致优化，最核心的突破在于实现了“角色”与“声音”的双重精准控制：通过文本 Prompt 定义人设，通过音频 Embedding 决定音色。

GitHub：github.com/NVIDIA/personaplex

主要功能：

- 全双工实时交互：支持同时听与说，允许用户随时打断，对话流畅度极高，告别生硬的轮流说话模式；
- 灵活的角色控制：支持通过文本提示词快速切换身份（如：睿智的老师、专业的客服、甚至是个在火星上的宇航员）；
- 多样化的声音定制：预置了自然（NAT）和多样（VAR）两类声音嵌入，涵盖多种男女音色，确保人格一致性；
- 低延迟架构：基于 Moshi 架构，将 ASR、LLM 推理和 TTS 深度融合，大幅降低响应时间；
- 灵活的部署方案：支持 GPU 本地运行，针对显存不足的情况提供了 `--cpu-offload` 选项，降低硬件门槛。

代码采用 MIT 协议开源，提供 Web UI 界面，通过简单的 pip 安装即可本地运行。非常适合需要高自然度交互的虚拟助手、游戏 NPC 以及智能客服开发者使用。

相关阅读