leyu乐鱼DeepMusic刘晓光:深度解读AIGC音乐创作技术原理明年实现一键生成自唱歌曲丨GenAICon 2024
leyu乐鱼DeepMusic刘晓光:深度解读AIGC音乐创作技术原理明年实现一键生成自唱歌曲丨GenAICon 20242024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,DeepMusic CEO刘晓光以《AIGC如何赋能音乐创作与制作》为题发表演讲。
刘晓光系统性复盘了当前音乐商业格局,包括不同音乐用户群体的特征与主要使用产品、相关音乐公司的商业获利模式。
他提到当前音乐商业格局主要面向泛音乐爱好者的听歌及浅度实践用户的唱歌消费体验,中间有1亿以上活跃音乐人、音乐实践者群体的需求尚未得到好的产品满足;同时音乐制作流程长、门槛高,这使得音乐AIGC技术有用武之地。
音乐创作与制作本身具备一定的专业性门槛,非专业人士很难借助音乐来表达自我,AIGC的发展为音乐创作带来了另一种可能性。刘晓光不仅详细回顾了音乐生产工具的40年演变历程以及其中三个关键阶段,并对近期多个爆款AI音乐生成产品进行推演,解读其背后采用的技术方案。
刘晓光深入讲解了音频模型、符号模型两类AI音乐模型所涉及的工作原理、训练数据及算法技术,并就跨平台一站式AI音乐工作站“派”的设计逻辑进行分享。“派”以更直观的功能谱呈现音乐创作部分信息,解决音乐中歌词、旋律、伴奏等不同模态之间沟通困难的问题,实现跨PC、手机平台的音乐创作、制作体验。
他认为音乐产业明年就能实现自然语言生成高品质伴奏的功能,只需上传30秒人声素材,就能生成用自己声音演唱的歌曲。未来,DeepMusic也会通过积累的精细化标注数据,实现对音频模型的精细化控制。
我们公司专注于音乐AIGC技术,因此,基于在此领域的专业认知,我们将与大家探讨以下几个方面:行业现状、AIGC对音乐行业的潜在影响、AIGC在音乐数据与技术方面的应用,以及未来发展趋势。
音乐行业最外圈的群体是泛音乐爱好者,他们主要通过听歌来体验音乐,使用的主要产品包括酷狗音乐、QQ音乐和网易云音乐等。根据上市公司的数据显示,这一群体的月活跃用户大约达到8亿人。
泛音乐爱好者是音乐行业中最广泛参与的群体之一。出于对音乐的兴趣,部分听歌人会参与一些与音乐相关的实践活动,例如,最浅的音乐实践就是唱K和观看音乐演出,主要使用全民K歌等产品。
在中度实践阶段,我们通常会使用一些产品,例如苹果系统预装软件酷乐队和安卓应用商店中的完美钢琴。完美钢琴在安卓应用商店的下载量可能接近1亿次,但其留存率却相对较低。这表明,中度实践用户开始对音乐产生需求,但目前市场上的产品并不能完全满足他们的需求。
接下来是深度实践用户,主要涵盖15至30岁的年轻人和50岁以上的中老年人。其中,约15%的年轻人已经参与音乐类兴趣社团,而约15%的中老年人参与了中老年合唱团等兴趣社团。这些用户逐渐表现出创作的意愿,预计规模大约为2000万人。我们将这些积极从事音乐实践的人群统称为音乐实践者。
从音乐实践者进一步升级,则为音乐人。国内音乐人总数约为100万。这一群体主要来自腾讯、网易以及抖音等平台,主要从事创作和表演活动。作为音乐人,他们至少发布过1首原创作品。大多数音乐人并非经过传统的专业音乐教育培养而成,而是通过职业培训学校获得技能,传统音乐教育并不为数字音乐行业提供人才。
音乐人创作时使用的软件很有意思,比如作词用Word,作曲用录音机,我们可能也觉得用这些软件制作音乐有些奇怪,我们清楚不可能用录音机做出咱们平时听的高质量音乐作品。
还有一个群体被称为音乐制作人。这些人通常是从音乐人逐渐晋升而来,他们需要经过多年的制作经验才能胜任。他们的主要任务是将音乐人提供的音乐录音Demo进行制作。在这个过程中,常见的音乐制作软件包括公司的Cubase和苹果公司的Logic Pro,它们是目前主流的音乐制作工具,通常运行在个人电脑上。然而,这些软件上手门槛极其高。
在这个领域,我们可以看到唱片公司、经纪公司等行业参与者。他们的主要任务是签约头部音乐制作人,并从音乐人那里获取原创歌曲,然后将这些歌曲制作并发布到主要的音乐平台,如腾讯音乐、网易云音乐等。
这些平台是这个行业的甲方公司,其年收入约为500亿人民币。其中,约35%的收入来自会员费,即用户每年支付的订阅费用,已经超过亿人;另外55%的收入则来自用户产生的娱乐消费,还有10%来自广告。
这500亿的终端收入中,大约有100亿会被分配给音乐创作者和唱片公司。而唱片公司则通过播放占比分成的方式来分配收入,即根据某首歌的播放量在中国整体音乐听众中的占比来确定分成比例。
音乐产业是一个极度头部集中的行业,以周杰伦的播放占比为例,其歌曲在中国整体音乐市场中的占比为5.6%。这意味着大约每20个人中就有1个在听周杰伦的歌曲。
我们注意到,在中级阶段的音乐实践者中,缺乏适合他们进行交互式学习和成长的优质产品。而对于深度实践者,也缺乏能够帮助他们提升技能的优秀软件。音乐人在创作音乐时使用Word和录音机可能存在一些问题。即使他们用这些工具创作出作品,交给音乐制作人后,仍需要大量的重复工作才能进一步处理。
可以发现,尽管中国可能有30%到40%的孩子在小学时学习音乐,但为什么他们大后和音乐商业所需的人才不匹配呢?这是因为在我们的音乐教育中,更注重的是基础乐理知识、唱和声、曲式分析以及器乐培训等,这些最终会让学生变成演奏机器。
然而,在真正的音乐实践、娱乐和商业环境中,所需的是作词、作曲、编曲、录音、演唱以及后期处理等音乐生产过程的技能。作词和作曲相对容易理解,编曲称作伴奏。
伴奏是指歌曲中的声音,如鼓、吉他、贝斯等乐器。要想精通编曲,需要克服的门槛非常高。现在,如果我有音乐兴趣,想要将其实现成一个成品,就会发现,这个过程既困难又昂贵,而且进展缓慢。
首先是2000年以前,即音乐生产工具1.0时代,几乎所有的音乐制作都依赖硬件录音,那时的音乐作品很有情调,因为只有最专业的音乐人才有机会参与录音过程。
第二个阶段,音乐生产工具2.0时代。苹果、、Avid几家公司推出了一个软件——数字音乐工作站,这种软件在电脑上运行,门槛极高,但功能却十分强大,能够模拟钢琴、吉他等传统乐器的声音,在电脑上使用MIDI和采样器。
MIDI是一种按时序记录声音高低的数字协议,比如我在3分零626秒弹奏了一个音符,它会记录这个音符的音高和时刻。通过记录一系列这样的数据,最终可以用电脑合成出完整的音乐作品。
进入2.5时代,音乐产业经历了一次重大变革。腾讯音乐娱乐集团推动了音乐娱乐的商业化,使得这个行业的收入达到了500亿,并让音乐人真正能够赚到钱。
与此同时,音乐生产工具也逐渐实现了移动化。例如,有一种工具可以在电脑和手机上使用,并且功能也变得越来越强大。同时,可以利用AI生成数字化的信号。
在音频方案中,我们公司于2018年开始专注于音乐AI。当时音频模型尚未成熟,基本上是通过将数以百万计的歌曲进行标记,并将自然语言模型与音频模型对应起来,以便通过一些Prompt来生成音频。
音乐符号方案的核心思想是从我们平时听到的歌曲中提取音乐信息leyu乐鱼官网,包括歌词、旋律、演唱方式、进程、使用的乐器以及乐器的音色等,然后对这些信息进行数字化标注。通过对这些音乐符号进行训练,可以生成新的音乐符号。最后,通过传统的音乐制作流程,将这些音乐符号渲染成音频。
这个过程涉及到三个主要技术领域:首先是音乐信息提取技术,通常用于听歌识曲等功能;其次是AI作词、AI作曲、AI编曲等技术,用于生成音乐符号;最终,将符号转化为音频的过程,就是以往数字音乐工作站所做的工作。
最近大家可能注意到Suno和Udio等产品频繁出现在屏幕上,但实际上技术突破来自于MusicLM和MusicGen。
这两者是最早能够通过自然语言与音频进行对位,并逐帧生成音频的技术,这是一种颠覆性的进展,首次出现在前年年底到去年年初。而后出现的Suno和Udio则采用了音频方案,如网易天音,还有例如天工SkyMusic,他们采用的是符号方案。
音频方案和符号方案各有特点。音频方案是端到端模型,使得生成的音乐听起来更贴近真实、完整,融合度更高。而符号模型则能够控制生成内容的各个方面。我们认为未来这两种模型会融合发展。
MusicLM和MusicGen大致能够生成的自然语言Prompt背景音乐作品,会有一个显著的前景旋律,这对于推断它们的技术实现方式将会非常有帮助,能判断出这些作品都是基于音频方案生成的结果。符号方案生成的音频听起来可能音质更高,但伴奏和人声的融合程度没那么好,纯BGM大概就是这种效果。
在我们的符号方案中,我们采用了领先的算法。我们使用一个标注工具来处理数据。以大家耳熟能详的《七里香》为例,在我们的标注工具中,顶部的蓝色波形代表音频文件,我们需要标注其中的关键乐理信息。
首先,自动识别出这些蓝色线小节线对齐;接下来,标注旋律、歌词、、段落以及调式等音乐中重要的乐理信息;一旦完成了这些标注,就可以使用单模态生成旋律,生成旋律和歌词的对位,或者根据输入的歌词生成伴奏和旋律。有了大量这样的数据,我们就可以开发出生成式AI模型。
由于音频方案的火爆产品并未公开其具体实现方式,我们通过大量实验进行推测,和大家分享我们对AI和音乐结合的认知。我们认为这种生产方式颠覆了我们对智能技术的认知。
最近,音频模型产品火了起来。我们看到这些产品的体验大致是这样的:输入一段歌词和一些Prompt,就能生成完整音乐。
根据我们的推断,它的算法可能是这样的:首先,有了一批音乐数据,同时标注了对应的歌词。这种数据在QQ音乐等平台上都可以直接获取。另外,现在已经有一项成熟的技术叫做人声伴奏分离,可以将音频中的人声和伴奏分离开来。
现场演示的人声里带有和声。在训练时,我现在只看到前三行,大概是将音频进行切片,然后通过一个分离的BGM和其中标注的歌词来生成最终完整的音乐。这是模型大概的工作原理。
因此,我们最终看到的是,输入一个Prompt,它会从一个BGM库中找到与之最匹配的音频片段,然后根据输入的歌词或者想要的乐器,在原始音频上叠加一个人声模型。它们对音乐的理解与我们不太一样,它们将音乐理解为一个人听着伴奏,朗读歌词的TTS模型。整个过程是一个端到端的模型,所以在整个音乐中,伴奏和人声的融合效果非常好。
我刚刚分享了一下音乐行业的整体情况,以及音频模型、符号模型等的大致工作原理。现在我想分享一下我们自己的产品,叫做“派”。它是一个移动端一站式的低门槛音乐创编软件,AI在其中发挥了很大的作用。我们希望通过这个产品解决几个问题。
第一,我们希望AI是可控的。但是在音乐中,我们重新定义了控制的方式。例如,我们现在谈论如何描述音乐知识,大多数人可能首先想到的是五线谱。然而,五线谱是两百年前的产物,当时还没有留声机。五线谱的目的是记录音乐应该如何演奏,而不是现在流行音乐中常见的记录方式。我们希望音乐有一种更直观的控制方式。
第二,过去我们在创作音乐时,可能会用Word来写歌词,用录音机来录制曲子。我们希望能够将这些功能整合到一个平台上,实现一站式的音乐创作体验。另外,在制作人和音乐人这个行业,每个人购买的音源可能不同,这就导致了互相之间的工程文件无法兼容的问题。我们希望能够解决这个问题,让不同音源之间的工程文件能够互相兼容。
第三,我们希望能够在手机上完成创作音乐这件事情,而不是打开电脑。然而,在手机上进行音乐创作确实存在很大的困难。例如,在安卓系统下,实际上没有一个很好的音频引擎来支持这项开发工作。因此,我们花了很多时间去开发跨平台的音频引擎,以解决这个问题。
我们的整体设计思路如下,这是音乐功能谱。首先,我们意识到这个产品并不是面向全人类的,而是针对人类中大约10%的用户。功能谱基本上是音乐爱好者需要了解的内容,其中包括段落和,告诉乐手如何演奏;还包括旋律和歌词,告诉歌手如何演唱。
流行音乐并不那么复杂,通常只包含一个伴奏和一个人声。人声部分由数字表示,例如“Do、Re、Mi、Do、Re、Mi”,并附带歌词,以指导歌手的演唱。而剩下的段落和则指导所有乐器如何演奏。简而言之,就是这两部分构成了音乐功能谱。
我们通过创作功能谱或者采用其他方法呈现,创造了音乐。将功能谱转化为声音,这是音乐创作;将功能谱变成我们能听到的音乐,这是音乐制作。这个过程最终形成了我们的产品——派。
在派中,我们提供了一个功能谱的编辑页面。你可以随意输入、旋律和歌词。通过AI辅助编曲功能,你可以生成伴奏;通过AI的歌声合成功能,你可以让这些输入内容被演唱出来。
借助大量的词、曲和对位数据,我们能实现旋律生成、生成旋律等功能。这意味着你可以输入一段歌词,我们就能为你生成一首完整的歌曲;或者,你哼唱一段旋律,我们能为你配上和伴奏。这一切都可以在一个软件中一站式完成。
针对不同的用户,我们提供了各种交互式体验。例如,对于中度实践用户,基于大型语言模型的理解能力,能生成歌词,并根据这些歌词生成音乐的其他信息;对于深度实践用户,他们通常已经理解了的概念,但可能对的具体细节不够了解;对于更深度的音乐人,他们可以编辑所有的,调整音高,并修改歌词,以快速创建所需的BGM。
我们可以关闭吉他轨道,换成电吉他,并调整演奏方式,即使不懂吉他也能自由创作。我们已经有许多用户通过这种方式制作出了不错的作品,其中有些甚至深深打动了我。
我们的整体产品都能在一个手机软件里一站式输出。我们坚定地致力于移动端产品,因为我们相信许多00后和05后的孩子并不太习惯使用电脑。我们预见未来的音乐制作大部分流程都将在手机上完成。只有在最后需要进行精细调整时,才会转移到电脑上进行。
首先,我们认为在音乐消费端,AI和大数据等技术的发展不会带来太大的变化。因为音乐行业本身就是一个供大于求的行业,AI的出现虽然提高了生产效率,但并不会对行业生态造成巨大的影响。然而,在音乐生产端,我们相信将会有越来越多的人参与其中,进行实践,从中获得乐趣。
新的音频模型可以通过一个简单的Prompt生成出完整的BGM,而TTS模型可以生成完整的歌曲。接下来,我们可以预见,人们将能够自己制作个性化的BGM,并在其上填写歌词。每一句歌词都可以重新编辑,例如,如果觉得第二句不够理想,就可以重新编写。
与此同时,音量调整也将变得更加灵活。我们相信,在今年年底,不止一家公司将推出这样的产品。到那时,音乐制作过程将变得更加普及化。音乐人们可能会首先选择一个自己喜欢的BGM,然后利用语言模型为歌词寻找灵感,并逐句进行修改和尝试。最终,他们可以按照传统的录音和音乐制作工作流程完成作品,并进行发布。
明年大概就能实现自然语言生成伴奏的功能,而且音质应该也会相当不错。你只需上传大约30秒的人声素材,就能够用你自己的声音来演唱歌曲。音质会达到基本可用的水平。
到那时,我们就可以摒弃传统的录音或者“MIDI+采样器”的工作流程,转而使用“BGM+歌词”的输入方式。我们只需要进行简单的粗颗粒度修改,利用音频模型调整音乐,直到满意为止,然后就可以直接发行作品。
那时我们对于音乐制作工具的理解可能会回归到我设定一首歌,包括前奏、间奏和副歌等部分,然后在其中输入歌词。我们可以将歌曲分割成不同的区域,并在每个区域选择不同的乐器库。用户可以通过拖拽乐器到相应的区域,并指示该乐器的演奏方式,最终就能够生成整首音乐。
最终实现这样的体验,必然需要结合录音、MIDI、采样器以及音频模型等技术。国内在音频模型方面可能会有一些差距,但我们坚信,对于未来面向音乐人和音乐爱好者的产品,我们所做的积累毫无疑问是有意义的。