用上最新的RTX5090显卡后，硬是搞出了一个叫Qwen3-TTS-JP的版本。

哈你路亚

2026-02-23 21:26:53

刚离职的AI产品经理告诉我，他们内部测试时，有个实习生用3秒的会议录音，生成了老板的声音批了条“离谱”的申请，把全组人都吓出了一身冷汗。

他说，现在这技术的门槛，已经低到可怕了。阿里那个Qwen3-TTS很强，但之前只有Linux版，把Windows用户急得够呛。结果有个大佬，用上最新的RTX5090显卡后，硬是搞出了一个叫Qwen3-TTS-JP的版本。这下好了，在Windows电脑上从安装到克隆出声音，十分钟搞定。最关键是，它集成了自动转录，你随便丢一段3秒的音频进去，连字幕都不用准备，它自己就能转成文字然后克隆，真正做到了“3秒克隆”宣传的效果。
但方便的另一面，是毛骨悚然。他举了个例子：32GB显存的RTX5090能完美运行最强的1.7B模型，克隆出的声音，连语气停顿和情绪都能模仿。用他们内行话测试，英文错误率才1.24%，中文不到0.77%，普通人耳朵根本分不出真假。以前搞声音诈骗还得费劲录音，现在？可能在你不知情的情况下，一段社交媒体上的语音，就够了。
现在一想到，以后接到熟人的借钱语音，都得先打个电话确认，我就觉得有点荒谬。技术飞奔是好事，但当伪造声音和伪造一张照片一样简单时，我们到底该怎么防范？
你们身边，开始讨论这种声音克隆的风险了吗？

相关阅读