这些人不存在。为什么网站会制作人(和猫)的虚假图像
如今,计算机化的声音似乎无处不在,从您客厅的智能扬声器中提供新闻,或者在车内为您提供转弯指示。然而,Alexa,Siri,Google智能助理以及其他您可能会听到的人仍然倾向于发出尖锐的机器人声音。(值得注意的例外是,Google Duplex可以通过令人印象深刻的人性化AI启用语音呼叫一些企业进行预订; Google正在越来越多地使用它,但您必须接听电话的接收端 - 在例如,一家餐馆 - 听一听。
WellSaid Labs并不打算接管语音助理市场。相反,Hocking说,它希望将声音卖给想要在广告,营销和电子学习课程中使用它们的公司。
该公司表示,它正在构建一些客户可以使用的类似人类的声音,并希望与配音演员合作创建可用于创建各种人工声音的不同数据集。
你可能听说过照片;你可能会认为这是股票的声音。
为了让女性在人造广告中发声,WellSaid Labs首先让一位配音演员阅读维基百科的文章。这些记录形成了一个数据集,用于训练人工神经网络 - 一种计算系统,其结构在大脑神经元之后松散地建模。
另一个在线演示展示了人工智能产生的声音与演员之间的相似之处,两个几乎无法区分的声音交替出现 - 一个是人类配音演员,一个是人工智能产生的声音 - 听起来像一个中年女人。您可能偶尔会注意到一些差异,但它们很轻微;例如,你所期望的重点可能只是一句话。
该创业公司表示,它不需要预先处理或注释给予软件的文本,因为它能够以自然的方式强调词语 - 这是人工语音很难在没有帮助的情况下完成的事情(虽然谷歌等公司一直致力于此。如果你将相同的文本输入其文本到语音生成器两次,你会得到不同的结果。
首席技术官Michael Petrochuk说,现在渲染一行文字大约需要四秒钟。然而,该模型并不是为了解释长文本而构建的:它可以用来说几个句子,但是,例如,整个CNN商业文章的文本需要在分析之前切成碎片。由WellSaid Labs的声音说出来。(该公司的一个声音说出了这个故事的标题和第一段 -听一听,看看你的想法。)
这个AI非常擅长写作,它的创作者不会让你使用它
很难使合成声音始终保持良好状态。卡内基梅隆大学语言技术教授艾伦·布莱克说,我们熟悉的那些,比如亚马逊的Alexa,都是机器人声音,因为在所有情况下让它听起来都很自然。他说,要向语音合成器提供适量的信息是很困难的,因此它可以用恰当的感觉做出反应。
“我们的合成器上没有一个小旋钮可以说'感觉87%',”他说。
他听了一些WellSaid Labs的演示声音,并认为他们听起来“相当不错”。
但是,如果人类的声音听起来接近 - 或者与人类无法区分,那么听众应该知道他们不是在听真人谈话吗?在谷歌于2018年展示Duplex之后,人们发出了人性化的AI向湾区餐厅发出的声明,该科技公司被批评为没有人工智能透露它是什么。
Black认为披露是不必要的,至少在广告的背景下是这样。
“我认为,一般来说,大多数人都相对意识到他们在视频和音频中所看到的东西在某种意义上是处理过的,”他说。“他们知道,当他们观看'指环王'时,新西兰真的没有很多兽人出现在电影中