您的位置:首页>国际 >内容

人造声音开始听起来就像人类一样

2019-04-01 09:37:30来源:
导读旧金山(CNN商业)它可能是YouTube上的任何广告:一个金发碧眼的模特俏皮地将她的手放在镜头前,戴着白色太阳镜并闪烁着笑容。在背景中,嘻哈

旧金山(CNN商业)它可能是YouTube上的任何广告:一个金发碧眼的模特俏皮地将她的手放在镜头前,戴着白色太阳镜并闪烁着笑容。在背景中,嘻哈音乐播放,而一个明确无误的女性声音说,“时尚变化,但风格永远持续。”

广告 -由一家名为WellSaid Labs的新创业公司创建的YouTube上的演示卷轴的一部分- 简短而光滑。但有些事情有点不同。虽然您看到的模型是人类,但您听到的背景声音听起来只有一个。

这家总部位于西雅图的公司正在使用配音演员和人工智能来制作听起来像人一样的合成声音。该公司声称,过去一年中一直在研究的文本到语音转换软件可以产生听起来比其他合成声音更像人类的音频。据该公司称,其原因在于,在训练语音模型时,它并没有严格控制语音的不同变量,如速度,发音和音量。

WellSaid Labs首席执行官Matt Hocking告诉美国有线电视新闻网(CNN Business),“我们在这里努力创造的声音在其最终结果中表现得极具表现力和栩栩如生。”

这些人不存在。 为什么网站会制作人(和猫)的虚假图像

这些人不存在。为什么网站会制作人(和猫)的虚假图像

如今,计算机化的声音似乎无处不在,从您客厅的智能扬声器中提供新闻,或者在车内为您提供转弯指示。然而,Alexa,Siri,Google智能助理以及其他您可能会听到的人仍然倾向于发出尖锐的机器人声音。(值得注意的例外是,Google Duplex可以通过令人印象深刻的人性化AI启用语音呼叫一些企业进行预订; Google正在越来越多地使用它,但您必须接听电话的接收端 - 在例如,一家餐馆 - 听一听。

WellSaid Labs并不打算接管语音助理市场。相反,Hocking说,它希望将声音卖给想要在广告,营销和电子学习课程中使用它们的公司。

该公司表示,它正在构建一些客户可以使用的类似人类的声音,并希望与配音演员合作创建可用于创建各种人工声音的不同数据集。

你可能听说过照片;你可能会认为这是股票的声音。

为了让女性在人造广告中发声,WellSaid Labs首先让一位配音演员阅读维基百科的文章。这些记录形成了一个数据集,用于训练人工神经网络 - 一种计算系统,其结构在大脑神经元之后松散地建模。

另一个在线演示展示了人工智能产生的声音与演员之间的相似之处,两个几乎无法区分的声音交替出现 - 一个是人类配音演员,一个是人工智能产生的声音 - 听起来像一个中年女人。您可能偶尔会注意到一些差异,但它们很轻微;例如,你所期望的重点可能只是一句话。

该创业公司表示,它不需要预先处理或注释给予软件的文本,因为它能够以自然的方式强调词语 - 这是人工语音很难在没有帮助的情况下完成的事情(虽然谷歌等公司一直致力于此。如果你将相同的文本输入其文本到语音生成器两次,你会得到不同的结果。

首席技术官Michael Petrochuk说,现在渲染一行文字大约需要四秒钟。然而,该模型并不是为了解释长文本而构建的:它可以用来说几个句子,但是,例如,整个CNN商业文章的文本需要在分析之前切成碎片。由WellSaid Labs的声音说出来。(该公司的一个声音说出了这个故事的标题和第一段 -听一听,看看你的想法。)

这个AI非常擅长写作,它的创作者不会让你使用它

很难使合成声音始终保持良好状态。卡内基梅隆大学语言技术教授艾伦·布莱克说,我们熟悉的那些,比如亚马逊的Alexa,都是机器人声音,因为在所有情况下让它听起来都很自然。他说,要向语音合成器提供适量的信息是很困难的,因此它可以用恰当的感觉做出反应。

“我们的合成器上没有一个小旋钮可以说'感觉87%',”他说。

他听了一些WellSaid Labs的演示声音,并认为他们听起来“相当不错”。

但是,如果人类的声音听起来接近 - 或者与人类无法区分,那么听众应该知道他们不是在听真人谈话吗?在谷歌于2018年展示Duplex之后,人们发出了人性化的AI向湾区餐厅发出的声明,该科技公司被批评为没有人工智能透露它是什么。

Black认为披露是不必要的,至少在广告的背景下是这样。

“我认为,一般来说,大多数人都相对意识到他们在视频和音频中所看到的东西在某种意义上是处理过的,”他说。“他们知道,当他们观看'指环王'时,新西兰真的没有很多兽人出现在电影中

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章