| 注册

字节跳动发布中文歌声合成模型，可达人类歌唱水平的80%以上

2020-04-27
分类：新鲜资讯
百度已收录

近日，字节跳动人工智能实验室发表了一篇关于中文歌声合成系统的论文——《 A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders》。论文中，研究者提出了一种基于持续时间分配的的类似Tacotron声学模型和WaveRNN神经网络声码器的中文歌声合成（SVS）系统——ByteSing。与传统的SVS模型不同，ByteSing采用类似Tacotron的编码器-解码器结构作为声学模型，分别以CBHG模型和递归神经网络(RNNs)作为编码器和解码器。

同时，利用辅助音素持续时间预测模型来扩展输入序列，可以增强模型的控制能力、稳定性和节奏预测精度。WaveRNN也被用作神经网络声码器，以进一步提高合成歌曲的音质。

研究表明，ByteSing能够达到人类歌唱水平的80%以上，这也是字节跳动研究者首次尝试的歌声合成任务。

标签：字节跳动

相关推荐