分享: |
1 背景
1.1 元宇宙与音乐艺术元宇宙为音乐艺术提供了生长的土壤,未来人们可以在上面自由创作,可以与更多人交流学习。同时,元宇宙中虚拟现实等一系列技术为艺术家提供了艺术展现的新方式,有望突破时空限制,使得我们可以很容易地打造一个音乐艺术的生态圈,进而极大地提升音乐创作者和听众的情感共鸣体验。比如,现场的报告通常比线上的体验好,因为线下不仅有分享者与听者之间的交流,还有听众与听众之间的交流(体验)。因此,我们认为,随着元宇宙技术的发展,AIGC领域特别是智能音乐生成领域将需要更多地考虑高质量生成、人机协作生成和个性化生成等问题。
1.2 元宇宙背景下音乐人机共创有鉴于此,我们开始思考如何在元宇宙背景下开展智能音乐生成研究,并有效解决上述问题。我们认为,想要满足元宇宙中对音乐生成的要求,不但需要重视人机共创,也需要重视开放式协作。人机共创和开放式协作将相辅相成。下面从开放性协作、人机共创角度介绍我们实验室四个方面的工作。第一,人机独立发展阶段(Guo,et al,2022)。人机独立创作无合作,依赖数据。第二,知识融入阶段 (Chen,et al,2022)。将人类的创作知识融入AI,人与机器有协作。第三,认知拓展阶段(Wang,et al,2022)。不仅有协作,还可以在其中找到更高层面的认知拓展-更高的需求。第四,理解升级阶段。丰富创作策略,实现人机共创,达到人机融合。值得一提的是,这四个阶段并没有严格界定的顺序或先后,仅是一个对人机协作范式不断迭代的过程。值得一提的是,这四个阶段并没有严格界定的顺序或先后,仅是一个对人机协作范式不断迭代的过程。2 研究
2.1 人机独立人机独立阶段,我们主要研究由大数据引导的歌曲翻译任务(人机独立)。相较于传统的文本翻译,歌曲翻译需要满足更多的要求。包括以下三点:①可信度,即翻译结果需要保留原始语义;②和谐度,即翻译得到的歌词与原曲所构成的有机整体是和谐的,尽量避免误听的情况;③艺术性,即歌词不能像普通文本一样平铺直叙,需要有美感,也就是看起来像“歌词”。其中,想要达到第二点和谐度,首先需要保证词曲的长度相近,避免难以对齐的情况;其次则需要使旋律节奏与歌词节奏相呼应;最后,旋律走向也需要与歌词音调走向呼应。因此,单纯基于文本翻译模型的歌词翻译系统会出现原有节奏被破坏、歌词无法唱出来等问题。为此我们从局部层面和全局层面挖掘乐理知识和翻译约束,采用无监督学习的方式,引导式地进行自动歌曲翻译。首先,使用海量文本翻译数据训练一个翻译模型,以确保翻译可信度;其次,增加乐理约束以确保和谐度,具体来说,在训练阶段增加长度标签以控制模型输出长度,在解码阶段添加节奏和音高的对齐约束;然后,利用非对齐歌词数据及少量的歌词翻译数据对基础翻译模型的语言模型部分继续优化,以生成更像歌词的翻译结果。模型可以被分解为:①训练阶段,风格化与长度约束的歌词翻译模型;②推理阶段,音高与节奏约束的波束搜索。实际中,如图1所示,GagaST模型成功平衡语义和可唱性,在自动和人工评估中取得不错的效果,能够很好地找到某个英文用中文的哪些歌词来替代,既能达到意思相近又能达到旋律相近。3 结束语
人类和AI共同生活在这个世界已经成为共识,但并不是每个人都有音乐创作能力,但是每个人和AI组成的合体却能够迸发出巨大的艺术创作能力。在未来的元宇宙中,可能每个人都会携带自己的AI来与他人交流、合作和共创,因此音乐创作等艺术创作的形式也将会大不相同。同时,如图5所示,元宇宙中带来的情感共鸣提升,除了创作者之间的情感交流之外,也将体现在创作者和听众之间、听众和听众之间。阅读原文
展会咨询
![]() |
![]() |
![]() |
![]() |
世展网公众号 |
微信小程序 |
销售客服 |
门票客服 |