使用 AI 驱动的语音克隆工具来复制真实人类的声音-做软件开发的深圳公司-锐软视角

人工智能驱动的语音合成器现在可以进行非常逼真的口语对话、带上口音、耳语，甚至克隆他人的声音。那么我们如何将它们与人声区分开来呢？

如今，与 AI 进行对话非常容易。向一些聊天机器人提问，它们甚至会提供引人入胜的口头回答。您可以使用多种语言与他们聊天，并要求以特定的方言或口音进行回复。

现在甚至可以使用 AI 驱动的语音克隆工具来复制真实人类的声音。

AI 生成的声音还被内置到由大型语言模型提供支持的聊天机器人中，因此它们可以以更自然和更令人信服的方式进行响应和交谈。例如，ChatGPT 的语音功能现在可以使用不同的语气和强调某些单词来回复，其方式与人类传达同理心和情感的方式非常相似。它还可以捕捉非语言线索，例如叹息和抽泣，说 50 种语言，并且能够动态渲染重音.它甚至可以代表用户拨打电话以帮助完成任务。

这些功能提出了一个有趣的问题：人声有什么独特之处可以帮助我们将其与机器人语音区分开来吗？

尤其是最近，语音生成/合成系统变得如此出色，以至于通常很难区分 AI 生成的声音和真实的声音。

仍然有一些重要的线索可以帮助我们判断我们是在与人类还是人工智能交谈。

肯定有语言之外的东西，比如吸气会让我更接近人类，但节奏、平衡、音调会推动我转向 AI。对于未经训练的人来说，其中许多东西可能很难捕捉。

深度伪造检测软件正在帮助捕捉人耳可能错过的东西。

听句子中给出的单词的重音或重音可能是发现计算机生成语音的好技巧。这是因为人类使用重音在对话的上下文中赋予句子更多意义。

克隆人们声音的能力可能会欺骗语音识别系统、朋友和家人，从而造成安全风险

措辞也是一个重要因素。句子的分解方式也会改变其含义。

这三个语音元素一起被称为句子级韵律。这是“计算机生成的语音非常糟糕且不太像人类的方式之一”。

但随着技术的发展，人工智能也越来越擅长复制语音的这些方面。

许多 AI 语音系统难以在正常音域之外说话

那是真呼吸还是假呼吸？有没有犯什么错误？是不是太亮了，太完美了？磕磕绊绊和呼吸是非常人性化的，所以如果事情太完美，实际上可能表明 AI 在伪造它。这项技术听起来也越来越人性化。

语速的变化通常是人类声音的明显失误，但实际上，在我们的示例中，AI 声音似乎比人类更能产生这种声音。

仅凭我们的耳朵就将 AI 生成的语音与真实的人声区分开来变得越来越困难

然而，可能还有另一种区分人类和 AI 声音的方法，建议使用一种称为韵律去重音的方法。以下面的示例为例

对于许多 AI 系统来说，将这些类型的对话与自然韵律相结合可能仍然相当困难，因为它需要对世界的了解远远超出页面上打印的文字。

但即使是这种测试也可能很快被利用互联网大型数据集的大型语言模型所克服，因为它正在训练自己说更多人类的话。

在某个阶段发现 AI 是否也能做到这一点，那将非常有趣。

ChatGPT 的语音功能等主流服务已经可以大笑、耳语、被打断，然后继续它所说的内容。它还可以记住你告诉它的一切。

也许在寻找您是否正在与人交谈时，解决方案很简单——花更多时间面对面会面

当被问及有哪些保护措施来确保其 AI 在与人类交谈时披露它是 AI 时，ChatGPT 的开发者 OpenAI 表示没有。它还表示，它不打算为 AI “水印”来识别它，因为对其用户的偏见.这可能包括使用 ChatGPT 进行交流的受损演讲者群体，或者可能包括使用 ChatGPT 帮助完成家庭作业的学生。

然而，OpenAI 表示，随着 ChatGPT 高级功能的推出，它正在积极尝试阻止语音克隆。

如果您怀疑与您交谈的声音可能不是人类，您可以尝试其他一些技巧。例如，你可以让它尖叫。许多 AI 语音系统都难以在正常音域之外说话，除非它们接受过专门训练。我让 ChatGPT 大喊大叫，它告诉我它不能。

但是，在 AI 生成和 AI 检测之间不可避免的军备竞赛中，我们可能会在日益虚拟连接的世界中失去的东西——物理交互——中找到新的价值。也许在寻找您是否正在与人交谈时，解决方案很简单——花更多时间面对面会面。

对于那些仍然对我们的哪些音频剪辑是真实的感到困惑的人，我们可以透露第一个剪辑是 AI，而第二个剪辑是人类。你猜对了吗？

源：BBC