百度研究院推出并行波形生成在模型中的学生网络
创始人
2025-11-13 06:04:38
0

编译:Bing

语音合成,也称为TTS(文本转语音),目前广泛应用于智能家居设备和智能助理等应用中。 论治还报道了许多相关研究项目。

近日,百度研究院推出了TTS成果——ClariNet,成为百度TTS研究的又一里程碑。 之前基于神经网络的TTS模型将优化的文本到频谱图和波形合成模型分开,这可能导致性能不理想。 ClariNet首次使用完整的端到端TTS模型直接将文本转换为波形图形,并且只需要一个神经网络。 其全卷积架构可实现从头开始的快速训练。 ClariNet 在语音自然度方面成功超越了其他方法。 以下为论治对该论文的整理。

论文摘要

WaveNet是DeepMind去年推出的基于深度学习的语音生成模型。 它可以生成并行语音波形,即整个句子中的所有单词都可以同时生成相应的波形。 现在,我们提出了 WaveNet 的替代方案。 我们从自回归WaveNet中提取高斯逆自回归流,并以封闭形式计算KL散度,简化了训练算法并提供了非常高效的蒸馏过程。 除此之外,我们还提出了第一个用于语音合成的文本到波神经架构,它是完全卷积的,可以从头开始快速进行端到端训练。 除此之外,我们还在模型的隐藏表示中成功创建了并行波形生成器。

并行波形生成

在模型中,我们使用高斯自回归WaveNet作为“教师网络”,使用高斯逆自回归流作为“学生网络”。 2018 年,Oord 等人。 提出概率密度蒸馏方法来降低逆自回归流(IAF)最大可能学习的难度。 在蒸馏过程中,学生网络 IAF 尝试将其自身的样本分布与自回归 WaveNet 中训练的样本进行匹配。 然而,学生网络IAF的输出逻辑分布与教师网络WaveNet的输出之间的KL散度是不兼容的,必须使用蒙特卡罗方法进行粗略计算。 最终的并行WaveNet在蒸馏过程中需要进行双采样:首先将白噪声输入到学生网络中,然后从学生网络的输出分布中选择多个不同的样本来估计KL散度。

但在我们的模型中,通过添加高斯设置,密度蒸馏方法只需要单个白噪声样本,然后将其输入到闭合 KL 散度计算中。 我们的学生 IAF 网络在蒸馏过程中使用与教师 WaveNet 相同的条件网络(2D 卷积层)。

文本到 Wave 架构

我们的卷积文本到波形架构如下所示:

百度语音合成软件_语音合成百度_语音合成百度软件哪个好

它是基于 Deep Voice 3 创建的,Deep Voice 3 是另一种基于注意力的卷积 TTS 模型。 Deep Voice 3可以将文本特征(如字符、音素、强调等)转换为谱特征(如log-mel声谱和log-线性声谱)。 这些流行特征可以输入到经过波形合成训练的模型中,例如 WaveNet。 相反百度语音合成软件,我们直接将从注意力机制中学到的隐藏表示输入到神经语音编码器中,以端到端的方式从头开始训练整个模型。

我们提出的架构由四个部分组成:

实验流程

我们进行了几组实验来评估所提出的并行波形生成方法和文本到波形结构。 我们使用 20 小时的英语语音作为训练数据,并将音频下采样至 24kHz。

首先我们测试生成语音的自然度,用 MOS 分数表示:

语音合成百度软件哪个好_百度语音合成软件_语音合成百度

结果表明,高斯自回归WaveNet的输出水平与MoGul和softmax相当,优于MoL。

然后,我们从 20 层高斯自回归 WaveNet 中提取出 60 层并行学生网络百度语音合成软件,该网络由 6 个堆叠高斯逆自回归流组成,每个流由 10 层 WaveNet 参数化。 我们测试了前向和后向KL散度,结果如下:

语音合成百度软件哪个好_语音合成百度_百度语音合成软件

两种蒸馏方法都取得了不错的分数,我们希望添加感知和对比损失能够在未来进一步改善。

最后,我们从头开始训练文本转波形模型,并与 Deep Voice 3 中的类似模型进行比较。结果如下:

语音合成百度软件哪个好_语音合成百度_百度语音合成软件

该分数表明文本到波形模型的性能明显优于其他模型,并且具有精炼语音编码器和自回归神经编码器的模型的性能处于可比水平。

具体的语音合成可以看下面的例子:

结论

百度在语音合成方面确实下了很大的功夫。 今年3月,他们还推出了神经语音克隆系统,只需输入少量样本即可合成逼真的语音。 今天的 ClariNet 是语音合成领域的另一个里程碑。 它是该领域第一个真正的端到端模型,并在 GPU 上实现了更高质量的结果。 具体技术细节请参见原论文:arxiv.org/pdf/1807.07281.pdf

相关内容

热门资讯

如... 互联网世界里不乏任性的公司。 2014年9月18日18时,搜狐集团宣布给全体16000名员工放假一...
美... 图片来源@全景视觉文丨最极客、作者丨东方也在陨落近日,美国国会通过了《刑事滥用电话执法和威慑法案》,...
百... 近日,国内知名手机安全软件百度手机卫士与国内两大手机厂商华为、小米展开深度合作,为安卓手机用户提供更...
百... 编译:Bing语音合成,也称为TTS(文本转语音),目前广泛应用于智能家居设备和智能助理等应用中。 ...
汽... 来源 | 造型 STE,汽车技术研究如今的汽车越来越智能化,无人驾驶也并非遥不可及。 届时,人们只需...
(... 最近很少发有用的文章,不是因为我偷懒,而是因为最近忙别的事情,操作项目比较少,所以实在不知道该写什么...
原... 我之前写过一篇广受好评的宽文:原生Android是不是太简陋了? 快来尝试这些应用程序(第 1 部分...
撩... 笔者从2005年开始经营淘宝店,从小红心到金皇冠。 这几年,我见证了身边的朋友从对网购的怀疑到今天熟...
U... ug编程,简单六步流程,让你学会三维编程‌‌简单的编程测量方法1、细心:提高检测能力,满足公司质量控...
工... 工程测量师是建筑、土木工程等领域的职业道路测量员软件教程,主要负责测量、测绘等工作。工作职责工程测量...
波... 如何在线获得波斯语翻译? 对于英文翻译,你在网上随便搜索一下,可能会找到很多方法。 然而,对于一些小...
在... 自从网络普及以来,我们就看到有人卖空气、卖“毛裤”之类的东西,这并不奇怪!比如高级QQ可以卖,游戏内...
8... 我们卡车朋友在买卡车的时候,通常都会问这是什么变速箱,有多少档位,有高低速之分。 看来这些是关于传输...
分... 软件介绍相信每个人有时都会遇到一些问题。 U盘或电脑硬盘被误删除或格式化。 有时硬盘会出现故障并出...
什... 许多类型的卷材,如管材、棒材、板材、H型钢等,都需要按照固定长度进行切割。 在线长度测量仪不仅可以检...
中... 中新网北京12月22日电 “微信”还是“格城”?藏族学者探讨藏语术语标准化意义作者 李寒雪 杨成辰沿...
如... 如果您计划去西藏旅行但您不懂藏语,那么您需要一个在线汉藏翻译器。 这将帮助您更好地了解当地文化和人民...
尺... 尺子在线测量仪器有哪些?试试这些测量仪器直尺在线测量仪器有哪些? 尺子在线测量仪器广泛应用于实验室、...
微... 日前微信红包坐庄软件,微信官方公众号发布公告称,由于每年春节前后网络赌博的高峰期,微信团队对此始终保...
轴... 在正常的设计过程中,尤其是轴类产品的设计中,都离不开轴承。 轴承的选型需要大量的人工计算和查阅轴承计...