目前的AI生成音乐,虽然效果也很惊艳,但随机性太强,要出一首质量在水平线之上的歌,需要大量的随机生成,然后从里面挑(这个过程一般被玩儿AI的人称之为抽卡)。
但实际情况是,生成出来的歌大概率会有一部分非常令人惊艳,如果AI生成了一首我们觉得大体上满意的歌,存在局部瑕疵需要修改,现有的第一梯队的音乐生成AI并没有这种对局部进行修改的能力。而单独对这一段存在瑕疵的歌曲进行重新生成,它又没办法和其他部分的旋律保持风格的一致性。
所以AI生成音乐,当下亟待解决的一个问题是,在能参考风格的前提下,脑补缺失部分音乐的能力。
这是什么意思呢?举个例,一首两分钟的歌,其中一分半钟质量都可以,而有半分钟质量不太好,这个时候,如果我们可以手动告诉AI,哪一段有问题,需要重新生成,它能知道这一段有问题的歌前后部分的旋律,并生成一段新的旋律,还能和这前后的旋律在情感基调上保持连贯,那就真的令AI音乐大有可为了。
就像SD的controlnet那样,把一个东西从玩具提升为生产力工具。