近日,字节跳动人工智能实验室发表了一篇关于中文歌声合成系统的论文——《 A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders》。论文中,研究者提出了一种基于持续时间分配的的类似Tacotron声学模型和WaveRNN神经网络声码器的中文歌声合成(SVS)系统——ByteSing。与传统的SVS模型不同,ByteSing采用类似Tacotron的编码器-解码器结构作为声学模型,分别以CBHG模型和递归神经网络(RNNs)作为编码器和解码器。
同时,利用辅助音素持续时间预测模型来扩展输入序列,可以增强模型的控制能力、稳定性和节奏预测精度。WaveRNN也被用作神经网络声码器,以进一步提高合成歌曲的音质。
研究表明,ByteSing能够达到人类歌唱水平的80%以上,这也是字节跳动研究者首次尝试的歌声合成任务。
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
蜗牛派
字节跳动推出全新搜索品牌“悟空搜索”
字节跳动澄清:TikTok Global是字节跳动100%持股的子公司总部在美国
Tiktok计划12个月内纽约上市 甲骨文将持其20%股份

知情人士:为了过关字节跳动决定将TikTok总部继续留在美国
“最难就业季”脉脉数据研究院推出《互联网行业毕业生入行指南》
拉勾实力派招聘专场开启 同时上线上万个高薪职位
消息称甲骨文被选为TikTok美国业务的买家交易可能不会是直接出售
新石实验室负责人吴德周为何突然喊话华为?微博更新必有妖