刚离职的AI产品经理告诉我,他们内部测试时,有个实习生用3秒的会议录音,生成了老板的声音批了条“离谱”的申请,把全组人都吓出了一身冷汗。
他说,现在这技术的门槛,已经低到可怕了。阿里那个Qwen3-TTS很强,但之前只有Linux版,把Windows用户急得够呛。结果有个大佬,用上最新的RTX5090显卡后,硬是搞出了一个叫Qwen3-TTS-JP的版本。这下好了,在Windows电脑上从安装到克隆出声音,十分钟搞定。最关键是,它集成了自动转录,你随便丢一段3秒的音频进去,连字幕都不用准备,它自己就能转成文字然后克隆,真正做到了“3秒克隆”宣传的效果。
但方便的另一面,是毛骨悚然。他举了个例子:32GB显存的RTX5090能完美运行最强的1.7B模型,克隆出的声音,连语气停顿和情绪都能模仿。用他们内行话测试,英文错误率才1.24%,中文不到0.77%,普通人耳朵根本分不出真假。以前搞声音诈骗还得费劲录音,现在?可能在你不知情的情况下,一段社交媒体上的语音,就够了。
现在一想到,以后接到熟人的借钱语音,都得先打个电话确认,我就觉得有点荒谬。技术飞奔是好事,但当伪造声音和伪造一张照片一样简单时,我们到底该怎么防范?
你们身边,开始讨论这种声音克隆的风险了吗?