百度研究院推出并行波形生成在模型中的学生网络
创始人
2025-11-13 06:04:38
0

编译:Bing

语音合成,也称为TTS(文本转语音),目前广泛应用于智能家居设备和智能助理等应用中。 论治还报道了许多相关研究项目。

近日,百度研究院推出了TTS成果——ClariNet,成为百度TTS研究的又一里程碑。 之前基于神经网络的TTS模型将优化的文本到频谱图和波形合成模型分开,这可能导致性能不理想。 ClariNet首次使用完整的端到端TTS模型直接将文本转换为波形图形,并且只需要一个神经网络。 其全卷积架构可实现从头开始的快速训练。 ClariNet 在语音自然度方面成功超越了其他方法。 以下为论治对该论文的整理。

论文摘要

WaveNet是DeepMind去年推出的基于深度学习的语音生成模型。 它可以生成并行语音波形,即整个句子中的所有单词都可以同时生成相应的波形。 现在,我们提出了 WaveNet 的替代方案。 我们从自回归WaveNet中提取高斯逆自回归流,并以封闭形式计算KL散度,简化了训练算法并提供了非常高效的蒸馏过程。 除此之外,我们还提出了第一个用于语音合成的文本到波神经架构,它是完全卷积的,可以从头开始快速进行端到端训练。 除此之外,我们还在模型的隐藏表示中成功创建了并行波形生成器。

并行波形生成

在模型中,我们使用高斯自回归WaveNet作为“教师网络”,使用高斯逆自回归流作为“学生网络”。 2018 年,Oord 等人。 提出概率密度蒸馏方法来降低逆自回归流(IAF)最大可能学习的难度。 在蒸馏过程中,学生网络 IAF 尝试将其自身的样本分布与自回归 WaveNet 中训练的样本进行匹配。 然而,学生网络IAF的输出逻辑分布与教师网络WaveNet的输出之间的KL散度是不兼容的,必须使用蒙特卡罗方法进行粗略计算。 最终的并行WaveNet在蒸馏过程中需要进行双采样:首先将白噪声输入到学生网络中,然后从学生网络的输出分布中选择多个不同的样本来估计KL散度。

但在我们的模型中,通过添加高斯设置,密度蒸馏方法只需要单个白噪声样本,然后将其输入到闭合 KL 散度计算中。 我们的学生 IAF 网络在蒸馏过程中使用与教师 WaveNet 相同的条件网络(2D 卷积层)。

文本到 Wave 架构

我们的卷积文本到波形架构如下所示:

百度语音合成软件_语音合成百度_语音合成百度软件哪个好

它是基于 Deep Voice 3 创建的,Deep Voice 3 是另一种基于注意力的卷积 TTS 模型。 Deep Voice 3可以将文本特征(如字符、音素、强调等)转换为谱特征(如log-mel声谱和log-线性声谱)。 这些流行特征可以输入到经过波形合成训练的模型中,例如 WaveNet。 相反百度语音合成软件,我们直接将从注意力机制中学到的隐藏表示输入到神经语音编码器中,以端到端的方式从头开始训练整个模型。

我们提出的架构由四个部分组成:

实验流程

我们进行了几组实验来评估所提出的并行波形生成方法和文本到波形结构。 我们使用 20 小时的英语语音作为训练数据,并将音频下采样至 24kHz。

首先我们测试生成语音的自然度,用 MOS 分数表示:

语音合成百度软件哪个好_百度语音合成软件_语音合成百度

结果表明,高斯自回归WaveNet的输出水平与MoGul和softmax相当,优于MoL。

然后,我们从 20 层高斯自回归 WaveNet 中提取出 60 层并行学生网络百度语音合成软件,该网络由 6 个堆叠高斯逆自回归流组成,每个流由 10 层 WaveNet 参数化。 我们测试了前向和后向KL散度,结果如下:

语音合成百度软件哪个好_语音合成百度_百度语音合成软件

两种蒸馏方法都取得了不错的分数,我们希望添加感知和对比损失能够在未来进一步改善。

最后,我们从头开始训练文本转波形模型,并与 Deep Voice 3 中的类似模型进行比较。结果如下:

语音合成百度软件哪个好_语音合成百度_百度语音合成软件

该分数表明文本到波形模型的性能明显优于其他模型,并且具有精炼语音编码器和自回归神经编码器的模型的性能处于可比水平。

具体的语音合成可以看下面的例子:

结论

百度在语音合成方面确实下了很大的功夫。 今年3月,他们还推出了神经语音克隆系统,只需输入少量样本即可合成逼真的语音。 今天的 ClariNet 是语音合成领域的另一个里程碑。 它是该领域第一个真正的端到端模型,并在 GPU 上实现了更高质量的结果。 具体技术细节请参见原论文:arxiv.org/pdf/1807.07281.pdf

相关内容

热门资讯

五元投资、高额返利?揭开华银A...   上海华通白银国际交易中心有限公司涉嫌严重虚假宣传,通过网络广告大肆诱导普通投资者下载其旗下各类交...
中国白银APP高杠杆、高手续费...   凡是在网络上宣称“小投入、高回报、操作简单就能赚钱”的平台,基本可判定存在严重问题。真正了解资本...
“... 前不久,小编看到一则新闻,浙江宁波一位女士想开网店,做服装生意,但她没有经验,不知道如何进入这个行业...
系... 大家好,我是时尚杉杉英,一个喜欢在健康生活、美丽健康领域不断探索的编辑,这样我就能和大家一起在健康生...
低... 5月23日凌晨,大量中国三星手机用户反映手机出现乱码死机、无限重启、数据丢失等情况。 各个城市的三星...
魔... 八年前的2011年11月8日,软媒推出【魔方助手】1.0 beta1。 当月30日,魔方助手1.0 ...
a... 在一个完整的App制作流程中,包括以下详细的制作流程:项目立项——需求分析——需求评审——界面设计—...
买... 随着第三方网店转让平台的出现和发展,现在电商创业者普遍选择这种方式开店。 然而,很多新手电商卖家仍然...
C... ☀每天推送CAD软件安装与下载、CAD工具应用、CAD技能、CAD教程、CAD资料、CAD故障排除等...
电... 对于一个企业公司来说,电子期刊的制作可以推动公司的发展趋势。 电子期刊的制作常常让设计师在设计和排版...
《... 《刀塔霸业》今日正式上线公测,备受期待的IOS、Android版本手游也如期上线。 不得不感叹Val...
如... 相信玩音乐的朋友都遇到过这种情况。 使用 FL Studio 编曲时,我想添加音频样本。 由于样本的...
自... 自媒体,即独立创作、发布媒体内容的人音频编辑软件教程,由于团队规模不大、成本较高,需要借助各种工具来...
新... 新版“微投票”从“界面设计”到“分享互动”都焕然一新。 从“排列式”到“强制关注”、“跳转其他活动”...
《... 改编自同名系列绘本的真人+CG电影《鳄鱼来来》发布全球首张海报。 海报中,可爱的鳄鱼来来变身“浴室歌...
聚... 游戏推荐Game Recommendation在当今信息爆炸的时代,我们每天都会接触到大量的视频内容...
没... 1 首先,没有今日头条账号的朋友可以先到今日头条官网(网站)注册今日头条账号。只需使用您的手机号码注...
软... 为提高各班级团支部书记的思想觉悟,提升业务开展能力,12月7日晚,软件学院在教31栋召开全体学生团支...
警惕“低门槛高回报”陷阱,揭秘...   上海华通白银国际交易中心有限公司旗下的“华通白银App”“中国白银App”“华银App”等交易软...
千... 千万别删!vivo自带软件真的太好用了! vivo实用技巧 , 17 , 发表于202...