1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

科技 超越TTS:谷歌WaveNet人工智能可以讲得比真人还生动

本帖由 漂亮的石头2016-09-13 发布。版面名称:新闻聚焦

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    488,439
    赞:
    48
    Google已经将人工智能技术运用到了图像搜索和机器人对话等领域,甚至在围棋比赛上战翻了世界顶尖棋手。现在,该公司又将AI技术运用到了如何逼真地模仿人类语声上,包括用嘴和呼吸系统发出的“非演说”声音(non-speech sounds)。这套系统被叫做WaveNet,该神经网络可以生成语音波形元数据,并且惊人般地生动。


    [​IMG]

    虽然我们早就有了非常实用的TTS(文本语音转换)系统,盲人等因此而颇为受益。但其通常先是录制一个人说各种各样的声音,然后生硬地衔接到一起(concatenative TTS)。

    “参数式”文本语音转换(parametric TTS)则可通过语音编码器、合成分析和再现语音输入,但听起来还是太像机器(不够自然)。

    相比之下,真人在说话的时候,会有很多更加零碎的声音/语气相助,而WaveNet则是一个可以更好地学习模仿真人说话的AI。

    WaveNet能够对原始声波模式进行建模,每秒分析16000个样本,然后生成一个基于之前声音的预测模型,结果就是惊人的高仿真度——换言之,WaveNet已经能够“发出自己的声音”。

    有关这项研究的更多内容,请移步至DeeMind博客(传送门)。

    [编译自:Cnet]

    [广告]活动入口:

    买美股,上老虎 - 超低佣金,每股只需1美分
     
正在加载...