恰当地命名为 Translatotron,在Google 博客中将 AI 描述为端到端的语音到语音翻译模型。它的新颖之处在于它避开了通常的语音到文本,然后是文本到语音的语音转换方法——这就是谷歌翻译所做的。
相反,它采用了神经网络,因此它可以跳过将音频转换为文本并再次返回的中间步骤。它还包括一个“扬声器编码器”,可以保留原始扬声器的声音。
与传统方法相比,新的人工智能有一些优势。也就是说,谷歌指出更快的推理速度,消除复合错误,以及更好地处理不需要翻译的单词,如专有名词和名称。目前,谷歌表示使用 Translatotron 的翻译质量落后于传统方法。
也就是说,如果您查看示例音频剪辑,最终结果不仅相当准确,而且听起来更自然。仍然有那种机械语调,但与亚马逊 Alexa 相比要少得多。
目前,已经有一些文本到语音的翻译应用程序存在,包括Google Translate、SayHi、Microsoft Translator、iTranslate和TripLingo。
也就是说,他们都没有在最终产品中使用你的真实声音,这在现实生活中可能会有些刺耳。
Translatotron 可能仍在进行中,但祈祷在不久的将来的某个时候,我可以进行我一直想要的巴黎之旅,而不必在一家高档餐厅误读“confit de canard”而让自己尴尬。