山姆•门德斯(Sam Mendes)执导的电影《1917》中,当 斯科菲尔德(Schofield)最终完成了那不可能的任务,巨大的压力从肩上释去,刚刚经历过的友情,死亡,痛苦,恐惧,当然还有一丝丝异性的温情,
缓缓流进他开始放空的心。他不知应该往何处去,于是静静地坐在一颗老树旁,开始独自接受情绪的变更。这时候,导演把影片交给了音乐,让一首大提琴独奏对故事作了总结。当独奏大提琴声在朦胧的伴奏中响起,
我震惊了。那宽广,宏亮的琴声,醇厚得像浓酒流淌,没有一点杂质,稳定,坚实的颤音,每个振动都饱含激情,驾驭着你的心跳频率,像要使你也跟着它一道流淌过主人公的胸腔。我想像不出,
导演还能有比这更好的处理手法,作曲家还能有比大提琴独奏更贴切的音乐形式,在此时来为这部动情的电影画上句号。虽然这段音乐只是以长音为主的简单旋律,却有如此感人心腑的强大冲击力,
那是因为大提琴的表现太突出了。
我长期对大提琴的演奏效果有较多的关注,也近距离聆听过不少名琴的效果和著名演奏家的演奏,自认为对大提琴所具有和应该有的音色有一定了解,然而对上面提到的那段大提琴演奏的感受,则是从没有经历过的。
我记得影片《藏龙卧虎》中也有一段令人难忘的大提琴独奏,但那是与灵动的旋律,华美的伴奏,和激情奔放的人声一道完成的。《1917》中的这段独奏,则是把所有的效果期望押到了大提琴的音响效果上,其结果是,
导演的期望没有被辜负。然而,那对故事的结局,对主人公心态的描绘如此完美的,大提琴宽厚,隐忍,智慧的音色,却与我印象中传统的的大提琴音色似乎有些不同,那不同是,太过完美!音色的响度,纯净度,
浑厚程度,颤音的均匀度和频率宽度,似乎都经过认真处理。因为这是使用最新技术拍出来的电影,我考虑制片人是不是使用了AI(人工智能) 技术来对电影的音响效果进行过处理,于是查了这部电影的拍摄背景资料,
没有发现相关的信息,但却引发了我对AI时代音响的思考。
音乐和音响发烧友都知道,一直以来,人们在这个领域里的最高追求,是保真度。理想的录音和放音系统,所做了和正在做的,是能使重放的声音,在人耳能接受的任意响度上,无限接近原始的声音效果。
我们可以看到,这方面的技术在日渐完美,而且代价也是相当高的。例如,一套最先进的图像重放系统(电影,电视),不超过五万美元,已经能完全满足眼睛的所有要求,而一套中上等的放音系统,动则几十万美元,
还不一定能满足有些挑剔的耳朵。追求高保真度的活动,大多是在传统的电子硬件和机械硬件上作文章,例如增加录音的采样频率(Sample Rate),增加数字化的数位深度(Bit Depth),一般并不需要AI技术的介入。
AI技术的日益发展,可能对音响领域带来什么变化呢?我认为首当其冲的大概是音色的人工控制。
想象如果一只值三百美元的机器制作的小提琴,可以发出价值三百万美元的斯特拉迪瓦里(Stradivarius)小提琴的声音效果,那是一种什么样的感受!使用将来的AI技术,应该是可以做得到的。
我们知道,声音的质量可以用音色(Timbre)来描述,而音色主要由声音的谐波含量和声音的动态特性(例如颤音和声音的衰减包络线)来决定。谐波含量,即谐波的数量和强度,则是最主要的影响因素,
特别是对连续音,那几乎是唯一的影响因素。在机器制作的小提琴上拉一个A音,和斯特拉迪瓦里小提琴上拉一个A音的主要区别,是在二者都拥有的每秒440次的主音的波动外,后者的其他频率的震动波形比前者要丰富得多。
如果你听过劣质的电子琴,或生日卡里的电子音乐元件,会发现,虽然那里奏出的曲调基本正确,但音色极为单调,难听。这是因为这些元件只产生简单的音乐主音,而没有任何其他的谐波成分。市面上的高级电子琴,
在制作中,根据不同乐器的特点,加上了相应于那些乐器的音色的谐波成分,于是可以成功地模拟那些乐器,这就是电子琴上见到的,长笛,萨克管,风琴等变音键的来历。在已知某种音色的谐波频率,
强度,和相位的情况下,人工合成那种音色,技术上已经不成问题。音色控制和模拟的困难之处在于,已知某种音色,如何对它进行分解,寻找出在各种状态下(音高,响度),所含有的谐波成分。
数学上的频谱分析(Spectrum Analysis),是解决这个问题的成熟的工具,但是,不管是使用解析方法或离散方法,频谱分析的数学处理对象都只能针对单纯的波动函数,例如一根弦的有阻尼或无阻尼震动。
要通过斯特拉迪瓦里小提琴,或帕瓦罗蒂的实际演出录音,来进行频谱分析则要困难得多。在这里,AI的语音识别(Speech Recongnition)算法,和语言生成(Language Generation)算法,
加上成熟的频谱分析技术,大概会有很好的作为。一旦获得了被模拟音色的完整的谐波数据,人们就掌握了一大批虚拟的音色专家,例如,“斯特拉迪瓦里小提琴音色专家”,“帕瓦罗蒂音色专家”,
等等。这样,只须让这些虚拟的音色专家对实际录音作识别,分析,合成,就能赋予这些录音指定的音色。
目前控制音响质量的另一个方法,是频率补偿法,这是用于复杂的混响声源,如交响乐和电影配音。我们见到专业音响师面前的音响控制盘上,其中有上百个滑动电阻控制器,那是用于增强或衰减某些频率的谐波成分。
作为一个例子,如果一段音乐中有两种乐器交织在一起演奏,如小提琴和大提琴,小提琴的音域在200Hz-12500Hz范围,大提琴的音域在60Hz-500Hz范围,要提升或衰减小提琴声音分量,
可以使用100-15000Hz的电阻控制器,要提升或衰减大提琴声音分量,可以使用50-1000Hz的电阻控制器。很明显,这样的控制是十分粗糙的,因为有限数量的控制器,会同时对两种乐器共享的频率段产生影响,
而达不到控制的目的,或有害于整体效果。这里所举的两种乐器的音乐是极为简单的例子,实际情况下要处理的音乐是有上百种乐器组成的交响音乐,因而使用这种方法很难得到理想效果。
理想的方法是对人耳能识别的频率范围的所有频率,都设一只控制器。一般认为,人耳能识别的频率范围是20Hz-20000Hz,如果控制器的频率间隔为1Hz,这就需要19980只控制器。这样庞大的控制系统,
非但硬件上不能满足,怎样控制它们?谁来控制它们?这些都是AI技术发挥的天地。
AI技术在飞速地发展,但目前都用在军事,民生,及金钱相关的领域。音乐音响发烧友们不知能否盼到,在2025年版的放音设备的控制板上,会增加一个称为“音色控制”的按键。
(2020年1月)