一場沒怎么預(yù)熱的演唱會(huì),在抖音直播間里火了。
開場10分鐘,觀看人次就突破1600萬,1小時(shí)后飆升到1億以上。
而這場演唱會(huì),其實(shí)是從31年前穿越而來。
1991年,Beyond樂隊(duì)首次登上紅磡體育館的舞臺(tái),初次登臺(tái)就鑄成經(jīng)典。
如今,時(shí)光流轉(zhuǎn),這場演出在2022年的夏天在直播間里,通過手機(jī)屏幕和上億人見面。
不過令人意外的是,盡管演唱會(huì)的母帶已經(jīng)稱得上是“老古董”了,但是直播間播放的畫面卻沒有糊成渣。
無論是黃家駒臉上細(xì)微的表情,還是黃貫中斗琴時(shí)上下翻飛的手指,歌迷們都能從手機(jī)這樣的小屏幕上看得一清二楚。
△動(dòng)圖效果略有壓縮
如此清晰的效果和細(xì)節(jié)呈現(xiàn),讓不少人恍惚間仿佛重回了90年代,引得歌迷直呼“Beyond精神永存!”
更值得關(guān)注的是,這種精神和情懷背后,提供核心支撐的是正在走向規(guī)模化商用的AI修復(fù)技術(shù)。
眾所周知,Beyond這盤演唱會(huì)影碟錄制于90年代,當(dāng)時(shí)的技術(shù)設(shè)備都還十分有限。
就拿畫面來說,能達(dá)到的水平只有540p、25FPS。
音質(zhì)方面,也會(huì)受到現(xiàn)場噪聲大等因素影響,最終錄下的歌聲也會(huì)大打折扣。
而Beyond的修復(fù),畫面和音質(zhì)都達(dá)到了一種新水準(zhǔn)。更重要的是,這場看上去工程浩大的修復(fù),其實(shí)只花1個(gè)星期就搞定了,其中絕大部分還都是由AI“直出”的。
這種技術(shù)和效率,也讓更多人潛在的情懷寄托和需求,得到釋放。
是的,AI修復(fù)正在從黑科技成為日常,也是時(shí)候更清晰地了解背后的技術(shù)原理了。
“細(xì)節(jié)到眼線都看清了”
其實(shí)這幾年,大眾對(duì)AI修復(fù)已經(jīng)不再陌生。
去年,央視動(dòng)漫和上海美術(shù)電影制片廠的多部經(jīng)典動(dòng)畫通過AI修復(fù)技術(shù),畫面清晰度可以達(dá)到4K水平。
不過和過去的一些修復(fù)工作相比,這次修復(fù)演唱會(huì)錄像,AI還著重注意了這3個(gè)方面:
多幀去交錯(cuò)人像修復(fù)亮度、色彩、氛圍調(diào)節(jié)
首先來看多幀去交錯(cuò)。
這里先要普及一個(gè)概念:什么是去交錯(cuò)?
早期由于設(shè)備處理速度或者帶寬限制的問題,不少視頻錄像都是使用交錯(cuò)式信號(hào)。
也就是將整個(gè)畫面平均分成一定數(shù)量的橫行,兩個(gè)場分別顯示畫面的奇數(shù)行和偶數(shù)行。
這樣一來,設(shè)備的緩存和處理速度要求都能減半。
而利用“視覺暫留效應(yīng)”,兩個(gè)畫面可以在快速播放過程中呈現(xiàn)出完整的畫面。
不過,隨著顯示設(shè)備不斷進(jìn)化升級(jí),如液晶顯示器等都只支持逐行掃描。
這就導(dǎo)致老舊影片在新設(shè)備上播放時(shí),會(huì)出現(xiàn)非常明顯的閃爍。
所以,需要使用去交錯(cuò)的辦法,來將隔行掃描的信號(hào)轉(zhuǎn)換為逐行掃描信號(hào)。
傳統(tǒng)常見的去交錯(cuò)方法,一般是把連續(xù)的兩個(gè)場直接拼為一幀,不做任何修改。
但是每個(gè)場之間的拍攝時(shí)間還是會(huì)存在細(xì)微變化,如果這一刻拍攝物體正在移動(dòng),就會(huì)導(dǎo)致去交錯(cuò)后的圖像會(huì)出現(xiàn)“拉絲”問題。
針對(duì)這個(gè)問題,AI這次使用的是基于運(yùn)動(dòng)補(bǔ)償?shù)亩鄮ソ诲e(cuò)算法。
和傳統(tǒng)方法相比,這種方法的大致原理是根據(jù)鄰近場使用動(dòng)態(tài)估計(jì),去預(yù)測畫面中的物體移動(dòng)并得到動(dòng)態(tài)向量,根據(jù)前一個(gè)場及動(dòng)態(tài)向量就能重建出一個(gè)新的場,然后將此兩個(gè)場并完成反交錯(cuò)。
它的特點(diǎn)是泛化性更強(qiáng),細(xì)節(jié)處理能力更好。
從結(jié)果來看,修復(fù)后吉他手的手部偽影完全被去除了,輪廓也清晰了起來。
第二個(gè)不同之處,便是對(duì)人像的著重修復(fù)。
演唱會(huì)錄像中勢必會(huì)存在大量的人像鏡頭,很多還是懟臉大特寫,歌迷格外關(guān)注的鏡頭往往也是這些部分。
但受限于當(dāng)年的拍攝設(shè)備水平,最終呈現(xiàn)的效果很容易是人和背景糊成一片,五官輪廓也不清晰。
針對(duì)這一問題,這次修復(fù)中使用了火山引擎自研的自適應(yīng)人像增強(qiáng)算法。
這種方法基于深度學(xué)習(xí)模型,會(huì)在消除人臉整體的模糊和壓縮損傷的同時(shí),進(jìn)一步對(duì)五官進(jìn)行重建。
比如之前不少網(wǎng)友說,修復(fù)后影像里,黃家駒的眼睛都有了光、眼線都能看得一清二楚。
這就是因?yàn)樗惴▽?duì)眼睛部分進(jìn)行了重建,并補(bǔ)足了更多細(xì)節(jié)。
除了五官以外,這一算法還能兼顧皮膚紋理、頭發(fā)絲等方面的細(xì)節(jié)處理,可以讓修復(fù)后的人臉更加真實(shí)。
此外,考慮到演唱會(huì)中拍攝到表演者的臉部不只有正面,算法還考慮到側(cè)臉、俯視、仰視、被話筒遮擋等多種情況,可以解決很多極端情況下的修復(fù)問題。
第三方面,體現(xiàn)在色彩亮度增強(qiáng)上。
據(jù)技術(shù)提供方火山引擎介紹,原片中其實(shí)存在大量過曝、死黑場景,色彩還原度也不夠高。
而這些問題不是簡單調(diào)節(jié)亮度或色彩就能解決的。
就拿死黑場景舉例,因?yàn)橛捌旧磉€存在很嚴(yán)重的底噪,如果直接把偏暗場景調(diào)亮,底噪也會(huì)被同時(shí)放大。
至于色彩方面,還需要平衡好修補(bǔ)褪色和保留復(fù)古感兩方面因素。
在這方面,火山引擎是根據(jù)具體片源的效果,依據(jù)美學(xué)評(píng)分對(duì)不同方面進(jìn)行調(diào)整。
并能根據(jù)不同幀的色彩統(tǒng)計(jì)信息進(jìn)行分區(qū)域自適應(yīng)亮度增強(qiáng),從而找到最佳的明暗平衡效果。
據(jù)技術(shù)人員介紹,以上幾方面工作幾乎都是由AI完成的,人工參與的只有一些調(diào)參部分。
甚至連對(duì)畫質(zhì)的評(píng)估,AI都參與了一波。
這次使用了一個(gè)針對(duì)畫質(zhì)的VQScore算法,對(duì)影片效果進(jìn)行評(píng)估。
該算法在ICME 2021的“壓縮UGC視頻質(zhì)量評(píng)估”比賽中,獲得了“無參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道”第一名。
拯救古早收音bug
視頻修復(fù)方面細(xì)節(jié)拉滿,不過既然是演唱會(huì),光修復(fù)畫面可不夠,音質(zhì)體驗(yàn)更是撥動(dòng)觀眾心弦的關(guān)鍵。
受限于當(dāng)時(shí)的技術(shù)水平和錄音設(shè)備,在原版影碟中,其實(shí)存在各種各樣的音質(zhì)問題。
比如:
噪聲干擾:設(shè)備、環(huán)境的噪聲影響音質(zhì)帶寬不足:設(shè)備、壓縮算法等導(dǎo)致音頻截止頻率低響度問題:響度問題導(dǎo)致聽感不適
針對(duì)這些問題,此次火山引擎音頻技術(shù)團(tuán)隊(duì)在Beyond演唱會(huì)的音質(zhì)修復(fù)方面,主要用到了三種算法。
音頻降噪算法
首先,來看看音頻降噪算法帶來的效果。
降噪之后,效果是這樣的:
降噪后.mp30:25來自量子位
可以聽出來,由于90年代演唱會(huì)收音條件有限,現(xiàn)場的環(huán)境又比較嘈雜,原版音頻中噪聲是比較明顯的。
而修復(fù)之后,黃家駒的聲音和音樂聲變得更加清晰、干凈。
這一點(diǎn)在頻譜圖上也表現(xiàn)得很明顯:降噪前,音頻頻譜較為渾濁;降噪后,頻譜圖清晰了不少。
值得注意的是,傳統(tǒng)的降噪方案通常針對(duì)人聲,在演唱會(huì)這樣的場景里,容易“誤傷”音樂本身。
因此,在為演唱會(huì)設(shè)計(jì)降噪算法之初,技術(shù)團(tuán)隊(duì)就將降噪導(dǎo)致的音樂失真問題考慮在內(nèi),通過在訓(xùn)練時(shí)加入音樂數(shù)據(jù)等方式,實(shí)現(xiàn)了對(duì)音樂場景和人聲場景的兼容。
也就是說,可以在保留人的說話聲、唱歌聲以及音樂本身的同時(shí),抑制其他噪聲。
音頻超分算法
噪聲之外,由于演唱會(huì)拾音設(shè)備、錄制硬件以及存儲(chǔ)壓縮等技術(shù)原因,聲音帶寬受損(即帶寬變窄)同樣會(huì)影響聽覺體驗(yàn)。
因此,修復(fù)團(tuán)隊(duì)還引入了音頻超分算法。
該算法主要對(duì)演唱會(huì)中人聲的部分進(jìn)行了頻帶拓展,以使人聲更加清晰。
從藍(lán)框部分可以看到,經(jīng)過超分,原始音頻的高頻部分得到了拓展和增強(qiáng)。
響度算法
最后,是通過音源分離算法提取演唱會(huì)中歌聲的部分,然后用響度算法對(duì)響度進(jìn)行調(diào)整。
這是因?yàn)檠莩獣?huì)現(xiàn)場拾音的過程中,可能會(huì)出現(xiàn)人唱歌的聲音被樂器、環(huán)境聲蓋住的情況。
單獨(dú)提取唱歌部分的人聲,進(jìn)行響度調(diào)整,然后再與原音頻混合,能夠使整體的聲音大小聽上去更加舒適。
一個(gè)幕后小故事是,無論是畫質(zhì)修復(fù)還是音頻修復(fù),都需要人工來進(jìn)行最終質(zhì)量評(píng)估。
而修復(fù)團(tuán)隊(duì)的程序員們恰好都是聽著《海闊天空》、《光輝歲月》長大的一群人。
因此處理Beyond演唱會(huì)的舊影像時(shí),修復(fù)人員們都是以粉絲的心態(tài),一遍又一遍不斷地去聽、去看修復(fù)效果,力圖用算法把當(dāng)年紅館的熱烈氛圍在今日重現(xiàn)。
他們的標(biāo)準(zhǔn)說起來也很簡單:
我得先覺得身臨其境了。
另外,值得一提的是,修復(fù)人員談到,本次修復(fù)基本都是AI搞定的。目前,這樣的技術(shù)能力已經(jīng)被集成到火山引擎對(duì)外開放的智能處理、音頻技術(shù)兩個(gè)產(chǎn)品中。
AI修復(fù)技術(shù)的B/C面
當(dāng)一場場線上懷舊演唱會(huì)在網(wǎng)上掀起熱潮,AI修復(fù)技術(shù)也再一次成為技術(shù)熱點(diǎn)。
并且在一次次的“出圈”之中,這類“網(wǎng)紅”技術(shù)的發(fā)展路徑和商業(yè)化前景,逐漸清晰明朗起來。
第一階段,是新興技術(shù)的探索期。
在這個(gè)階段,老片修復(fù)的相關(guān)技術(shù)手段從實(shí)驗(yàn)室走向民間。以B站up主大谷的視頻為代表的個(gè)人修復(fù)作品,屢屢吸足眼球,引發(fā)熱議。
△大谷修復(fù)作品
伴隨著云與AI的進(jìn)一步結(jié)合,各大科技廠商開始把“網(wǎng)紅”引入家門,這也就開啟了AI修復(fù)技術(shù)的第二階段:技術(shù)工業(yè)化進(jìn)程中的試驗(yàn)期。
這時(shí)候,開始有更多工業(yè)級(jí)的修復(fù)項(xiàng)目出現(xiàn)在大眾眼前,但仍舊有“單個(gè)項(xiàng)目、單點(diǎn)突破”的特點(diǎn)。
比如此前西瓜視頻和火山引擎推出的“經(jīng)典視頻4K修復(fù)計(jì)劃”,就是通過工業(yè)化的AI技術(shù)手段,成批量地修復(fù)《哪吒傳奇》、《黑貓警長》等百部經(jīng)典動(dòng)畫。
而現(xiàn)在,你或許不知道的是,這樣的技術(shù)不再僅僅停留在公益項(xiàng)目、To B產(chǎn)品的階段,甚至打開抖音,你也能用上。
比如畫質(zhì)修復(fù)的相關(guān)算法,就已經(jīng)被集成到抖音個(gè)人用戶的作品發(fā)布功能當(dāng)中。即使沒有專業(yè)的拍攝設(shè)備,用戶投稿的作品經(jīng)過AI針對(duì)清晰度、色彩、瑕疵、失真等問題的自動(dòng)修復(fù),也能達(dá)到不錯(cuò)的效果。
由此可見,在長期的技術(shù)積累與實(shí)踐之后,AI修復(fù)技術(shù)作為一種成熟技術(shù)產(chǎn)品的第三階段——大規(guī)模商用落地,或許已經(jīng)拉開帷幕。
尤其對(duì)于字節(jié)跳動(dòng)這樣的廠商而言,其旗下?lián)碛卸兑舻让刻於紩?huì)產(chǎn)生海量音視頻UGC內(nèi)容投稿的平臺(tái)。
從修復(fù)動(dòng)畫到Beyond演唱會(huì),一系列技術(shù)問題的突破和解決,最終都會(huì)直接在產(chǎn)品層面上有所體現(xiàn)。
并且不僅在云這一側(cè)面向B端,也已經(jīng)在C端顯現(xiàn)出潛能。
實(shí)際上,這也是AI技術(shù)不斷普惠、下放過程中的一個(gè)典型案例。
咱們作為普通用戶,受益其中,自然喜聞樂見。
說說你最希望AI修復(fù)的“老東西”吧?