編輯:桃子 好困
【新智元導(dǎo)讀】最近,一位「冷門歌手」竟靠著AI替身,翻唱華語樂壇歌曲爆紅全網(wǎng)。
一夜之間,「AI孫燕姿」火遍全網(wǎng)。
B站上,AI孫燕姿翻唱的林俊杰「她說」、周董「愛在西元前」、趙雷「成都」等等,讓一眾網(wǎng)友深陷無法自拔。
「冷門歌手」孫燕姿新晉成為2023年度熱門歌手,掀起許多人的追星狂歡。
網(wǎng)友表示,「聽了一晚上AI孫燕姿,出不去了……」
這些翻唱歌曲,是由Eternity丨L、羅斯特_x等UP主通過開源項目自制后并上傳。
(作者似乎特意在「半島鐵盒」中加入了一秒空白,湊成5分20秒)
UP主:Eternity丨L
除了AI孫燕姿,還有AI周杰倫,AI王心凌、AI林志炫…
可能許多人做夢也沒有想到,2023年華語樂壇竟以這種形式復(fù)興了。
「AI孫燕姿」在線營業(yè)
前段時間,一位TikTok網(wǎng)友用AI創(chuàng)作了一首「Heart on My Sleeve」很快躥紅網(wǎng)絡(luò),引來1000多萬人圍觀。
聽完這首歌的網(wǎng)友紛紛表示,太讓我驚訝了,簡直太瘋狂!
這首歌正是用兩位美國流行音樂人Drake和The Weeknd的聲音創(chuàng)作而成。先通歌手聲音訓(xùn)練AI,然后再用AI來創(chuàng)作。
在國內(nèi),B站上AI翻唱的華語樂壇歌曲也漸漸成為許多人關(guān)注的焦點,孫燕姿、王心凌、周杰倫等明星紛紛「復(fù)出」。
而最火的莫過于孫燕姿,憑借「天后音色」的稱號,直接成為AI新寵兒。
UP主:羅斯特_x
有人還自制了AI孫燕姿粵語版《愛來的太遲》。
然而,對于AI音樂制作,在整個音樂行業(yè)并非是一個新事物了。只不過生成式AI的大火,讓AI翻唱的門檻再次被拉低。
比如,年初,谷歌還曾推出了文本到音樂模型MusicLM,通過將音樂的生成過程視為分層的序列到序列建模任務(wù),并以24 kHz的頻率生成高保真的音樂。
對于許多歌迷來講,AI翻唱一定程度上滿足了自己的許多遐想。
還有一些歌迷,自己訓(xùn)練了已故經(jīng)典老歌手的AI,包括阿桑、張國榮、姚貝娜、鄧麗君等等。
這或許是一種數(shù)字永生,通過這樣一種方式讓久違的聲音再次回到人們心里。
Midjourney出圖逼真的超強能力,讓人們驚呼畫家要失業(yè)了。對于AI翻唱,難道歌手也要被去取代嗎?
一位UP主@阿張Rayzhang用自己的音色訓(xùn)練出的AI唱Killer Queen后,瞬間感覺太恐怖了。
緊急錄制一個視頻后,并附上了「AI歌手會讓翻唱區(qū)集體失業(yè)嗎?我被AI版的我爆殺!」標(biāo)題。
有網(wǎng)友稱,自己就是AI第一批受害者畫手,感覺什么職業(yè)也逃不掉。
有些人也表示,翻唱的有些地方一點也不像。
要知道,對于AI翻唱來講,也需要豐富的特定藝術(shù)家音色訓(xùn)練數(shù)據(jù),這樣AI生成的作品才更加真實。
就目前的技術(shù),雖然歌手的唱腔、技巧和風(fēng)格等還不能完全模仿,但音色已經(jīng)基本能完全復(fù)刻。
但是真正的大家是不能被取代。
AI翻唱火雖火,但由AI創(chuàng)作音樂的另一面,是迫在眉睫的版權(quán)問題。
AI創(chuàng)作的「Heart on My Sleeve」在TikTok上風(fēng)靡一時后,完整版被上傳到了Apple Music、Spotify、YouTube等平臺上。
就此,美國歌手Drake對此在Ins表達(dá)了不滿,「這是(壓死駱駝的)最后一根稻草了」。目前,這首歌因為侵權(quán)問題已經(jīng)下架。
《金融時報》稱,擁有Taylor Swift、Bob Dylan等巨星版權(quán)的環(huán)球音樂集團,正敦促Spotify和蘋果阻止AI工具從其藝術(shù)家的版權(quán)歌曲中抓取歌詞和旋律。
但是有些藝術(shù)家卻不吝嗇自己的聲音,馬斯克前女友Grimes在網(wǎng)上表示,
「任何人都可以使用我的聲音AI生成歌曲。」不過,還得再付50%的版權(quán)。
而這次大火的AI翻唱背后的原始項目「so-vits-svc」的作者,據(jù)稱也是因為太多人濫用,而刪除了項目。
SoVitsSvc:唱歌聲音轉(zhuǎn)換
歌聲轉(zhuǎn)換模型使用SoftVC內(nèi)容編碼器來提取源音頻語音特征,然后將向量直接送入VITS,而不是轉(zhuǎn)換為基于文本的中間格式。因此,音高和音調(diào)都可以被保留下來。
此外,項目開發(fā)者還通過采用NSF HiFiGAN作為聲碼器(vocoder),從而解決了聲音中斷的問題。
· 特征輸入改為Content Vec · 采樣率統(tǒng)一使用44100Hz
· 由于參數(shù)的改變,以及模型結(jié)構(gòu)的精簡,推理所需的GPU顯存明顯減少。
· 增加選項1:vc模式的自動音高預(yù)測,這意味著在轉(zhuǎn)換語音時不需要手動輸入音高鍵,男聲和女聲的音高可以自動轉(zhuǎn)換。但是,這種模式在轉(zhuǎn)換歌曲時,會造成音高偏移。
· 增加選項2:通過k-means聚類方案減少音色泄漏,使音色與目標(biāo)音色更相似。
· 增加選項3:增加NSF-HIFIGAN增強器,對一些訓(xùn)練集少的模型有一定的音質(zhì)增強效果,但對訓(xùn)練好的模型有負(fù)面影響,所以默認(rèn)關(guān)閉。
預(yù)訓(xùn)練模型文件
將checkpoint_best_legacy_500.pt放在hubert目錄下。
將G_0.pth和D_0.pth放在logs/44k目錄下。
預(yù)處理
0. 音頻切片
利用audio-slicer-GUI或audio-slicer-CLI工具,將原始音頻切片至5秒-15秒。
長一點也沒問題,但太長(比如30秒)可能會在訓(xùn)練甚至預(yù)處理時導(dǎo)致「torch.cuda.OutOfMemoryError」,俗稱爆顯存。
切片后,刪除過長和過短的音頻。
1. 重采樣至44100Hz和單聲道
python resample.py
2. 自動將數(shù)據(jù)集分成訓(xùn)練集和驗證集,并生成配置文件
python preprocess_flist_config.py
3. 生成hubert和f0
python preprocess_hubert_f0.py
完成上述步驟后,dataset目錄將包含預(yù)處理的數(shù)據(jù),dataset_raw文件夾可以被刪除。
現(xiàn)在,你可以修改生成的config.json中的一些參數(shù)——
keep_ckpts:在訓(xùn)練中保留最后的keep_ckpts模型。設(shè)置為0將保留所有模型,默認(rèn)是3。
all_in_mem:將所有數(shù)據(jù)集加載到RAM中。當(dāng)某些平臺的磁盤IO太低,而系統(tǒng)內(nèi)存比你的數(shù)據(jù)集大得多時,可以啟用。
訓(xùn)練
python train.py -c configs/config.json -m 44k
推理
模型在需要使用「inference_main.py」。
舉個例子:
python inference_main.py -m “logs/44k/G_30400.pth” -c “configs/config.json” -s “nen” -n “君の知らない物語-src.wav” -t 0
雖然原始項目組現(xiàn)已停止維護,但有不少網(wǎng)友都進行了fork并且也做了一些更新。
比如下面這個圖形化界面:
AI「復(fù)活」
AI翻唱之外,許多網(wǎng)友此前曾做了類似的項目,比如「AI-Talk」讓馬斯克和喬布斯進行了穿越時空的對話。
視頻中,AI不但模擬了他們的聲音,還在一定程度上模擬了其對話思路,使得交流過程十分流暢。
AI讓我們與逝者的對話成為可能。此前,B站UP主用AI還復(fù)活了老奶奶。
對于老奶奶的聲音制作,直接把過去已有的音頻上傳,素材基本來自于過去的電話錄音、錄像視頻或者微信語音。
并用音頻編輯軟件AU進行調(diào)整,調(diào)整的方向主要在降噪、人聲增強等等。
然后將更加清晰的音頻樣本切割成若干秒的短句,方便進行標(biāo)注。最后將處理好的音頻打包放入語音合成系統(tǒng)中去。
利用語音合成系統(tǒng),就可以嘗試輸入文本轉(zhuǎn)語音了。
網(wǎng)友見證科技狠活
AI孫燕姿的歌,已經(jīng)唱到許多網(wǎng)友的心坎。
最近沉迷AI「翻唱」,上至AI侃爺唱罰酒,下至蘇小玎唱真相是真。但說句正經(jīng)的,確實還是AI屆頂流孫燕姿的翻唱最好聽。
這幾天沉迷B站的AI孫燕姿,剛剛聽了一首《一場游戲一場夢》,太好聽了,唱到心坎里
不少網(wǎng)友聽過AI翻唱的歌曲后,感受到AI歌手的可怕之處:
科技的力量真是讓人細(xì)思極恐。
深深感受到了什么叫做科技的力量……
這就是AI生命,數(shù)字飛升!
還有網(wǎng)友對逝去歌手的懷念。
參考資料: