“微软的AI通过音频产生优质的讲话头”
更多的研究表明,如果语料库足够大,大部分人的面部运动可以与语音片段同步。 6月,三星应用科学家详细介绍了一种可以通过动画解决人类头像眉毛、嘴、睫毛、脸颊的端到端模型。 短短几周后,udacity展示了一个从音频解说自动生成立位演讲视频的系统。 两年前卡内基·; 梅隆大学的研究者发表了一篇论文,描述了将脸部动作从一个身体转移到另一个身体的做法。
基于这项事业和其他事业,微软的研究小组本周提出了一种提高音频驱动的语音会话视频真实感的技术。 传统的头部生成方法需要具有中性色调的干净、相对无噪声的音频,但研究人员表示,他们的方法(通过将音频序列分解为语音拷贝和背景噪声等,以噪声宣传情感丰富的数据样本)
大家都知道,语言充满了变化。 每个人在不同的语境下都会用不同的持续时间、宽度、语调等说出相同的单词。 除了语言(语音)文案外,语音还包含许多新闻,可以揭示说话人的情感状态、身份(性别、年龄、人种)和性格。 让我举几个例子。 正如我们所知,从音频显示学习的角度来看,[我们的]是提高性能的首要方法。
他们提出的技术基础是学习隐藏显示的可变自动编码器( vae )。 vae用于将输入音频序列分解为不同的表示形式,并对拷贝、情感和其他变化因素进行编码。 根据输入音频,从分布中采样一系列拷贝表示。 这些复制表现与输入的脸部图像一起发送到视频生成器,通过对脸部进行动画处理来解决。
研究人员获得了三个数据集来训练和测试VAE。 grid,包含来自34个说话者的1000张记录的视听语料库crema-d,由来自91个不同人种演员的7,442个剪辑构成; lrs3,这是ted视频的100,000多个口头语句的数据库。 他们将grid和crema-d输入模型,告诉他们如何分解语音和情感表达后,采用了一对定量指标,峰值信噪比( psnr )和结构相似性指数) ssim )。
据该小组称,就表现而言,他们的做法在所有指标上都与其他做法纯正,中立语言水平相当。 并且,他们指出,在整个情感范围内可以一致表达,同时与目前所有最新的发声头生成方法兼容。
共同作者写道,我们比较变体的可学习的先验方法可以扩展到身份和性别等其他语言要素,可以作为未来工作的一部分进行探讨。 通过测试带有噪声和情感的音频样本验证了模型,表明在有这种音频变化的情况下,我们的做法明显优于目前的最新技术。
本文:《“微软的AI通过音频产生优质的讲话头”》
免责声明:星空分类目录网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,星空网站目录平台不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。