譯者 | 朱先忠
審校 | 重樓
摘要:本文將同你一起探索Meta公司研制的新的開源人工智能音樂模型MusicGen,尤其是分析此模型中一些往往被忽視但實際卻代表顯著進步方面的內容。
音樂AI產品如何提升每個人的音樂制作水平的圖像(通過與ChatGPT和DALL-E-3的對話生成的圖像)
簡要回顧AI人工智能音樂模型歷史
2023年2月,谷歌公司憑借其生成式人工智能音樂模型MusicLM在業界掀起了軒然大波。在這一點上,有兩件事變得清晰起來:
- 2023年將是基于人工智能的音樂生成的突破性一年
- 一個新的模型很快就會讓MusicLM黯然失色
許多人預計,就模型參數和訓練數據而言,下一個突破性模型的規模將是MusicLM的十倍。當然,它還將提出同樣的道德問題,包括限制訪問源代碼和使用受版權保護的訓練材料等。
不過,時至今天,我們知道只有部分是真的。
Meta公司的MusicGen模型于2023年6月發布,這個模型帶來了一些巨大的改進,包括以下幾個方面:
- 更高質量的音樂輸出(24kHz→ 32kHz)
- 更自然的發聲樂器
- 以任何旋律為條件生成的選項(我已經寫了一篇關于這一點的博客文章:https://medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-melody-de34acd783)
……同時使用更少的訓練數據,開源代碼和模型權重,并且只使用商業許可的訓練材料等。
六個月后,炒作已經慢慢平息。然而,Meta公司的研究團隊FAIR繼續發表有關論文并更新相應代碼,以便逐步改進MusicGen模型。
模型研究進展
自MusicGen模型發布以來,Meta公司在兩個關鍵方面對MusicGen進行了升級:
- 使用多波段擴散實現更高質量的生成
- 立體聲生成帶來更生動的輸出
雖然這聽起來像是兩個小的改進,但卻存在很大的不同。你自己聽聽吧!以下是使用原始MusicGen模型(3.3B參數)生成的10秒作品:
來自MusicGen官方演示頁面生成的曲目
使用的提示內容是:
“earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves.”
對應的中文含義大致是:“鄉土色調,環境氣氛,融入尤克萊利琴,和諧、輕快、隨和的音調,有機樂器、節奏柔和。”
接下來,下面給出的是MusicGen模型在六個月后根據上面相同提示生成的輸出示例:
MusicGen模型生成了作者用MusicGen 3.3B立體聲創建的曲目
如果你是通過智能手機揚聲器收聽,差異可能不會很明顯。在其他設備上,你應該能夠聽到整體聲音更加清晰自然,立體聲使作品更加生動和令人興奮。
在這篇博客文章中,我想展示MusicGen模型在上述這些方面的改進,解釋它們為什么重要以及它們是如何工作的,并提供一些音樂生成的例子。
多波段擴散——這有什么作用?
為了理解什么是多波段擴散以及為什么它會產生影響,讓我們首先來看一看最初的MusicGen模型([參考資料1])是如何產生其輸出的。
在一臺具有近100萬個數字的計算機上,以34kHz的采樣率生成30秒的音頻。如果一個樣本一個樣本地生成這樣的作品的話,那么,其大小相當于用ChatGPT生成10本完整的小說。
相反,Meta公司使用了神經音頻壓縮技術。他們的壓縮模型EnCodec([參考資料2])可以將音樂從34kHz壓縮到大約0.05kHz,同時保持相關信息,并將其重建為原始采樣率。EnCodec由一個編碼器和一個解碼器組成,前者壓縮音頻,后者再現原始聲音(見下圖)。
Encodec:Meta公司使用的神經音頻壓縮模型(圖片由作者本人提供)
現在,讓我們回到MusicGen模型。這個模型不是通過全采樣率生成音樂,而是以0.05kHz的頻率生成音樂,并讓EnCodec“重建”音樂,從而以最小的計算時間和成本獲得高保真度輸出(見下圖)。
MusicGen:用戶提示(文本)被轉換為編碼的音頻信號,然后對其進行解碼以產生最終結果(圖片由作者本人提供)
雖然EnCodec是一項令人印象深刻的技術,但它的壓縮并不是無損的。與原始音頻相比,重建的音頻中存在明顯的偽音。你們自己聽聽就知道了!
原始音頻效果
EnCodec編碼生成的音樂示例(取自EnCodec官方演示頁面)
重建后的音頻效果
由于MusicGen模型完全依賴EnCodec編碼技術,所以這是生成音樂質量的主要瓶頸。這也正是Meta公司決定改進EnCodec解碼器部分的原因。2023年8月,他們為EnCodec開發了一種利用多頻帶擴散的更新解碼器([參考資料3])。
Meta公司在EnCodec的原始解碼器中發現的一個問題是,它傾向于先生成低頻,然后生成高頻。不幸的是,這意味著低頻中的任何誤差/偽音也會使高頻失真,從而大幅降低輸出質量。
多頻帶擴散通過在組合頻譜之前獨立生成頻譜的不同部分來解決這個問題。研究人員發現,這一程序顯著提高了生成的輸出。從我的角度來看,這些差異是顯而易見的。使用原始EnCodec解碼器和多頻帶擴散解碼器收聽同一曲目效果對比如下:
原始解碼器效果
生成的曲目取自多波段擴散演示網頁(https://ai.honu.io/papers/mbd/)
多頻帶擴散解碼器效果
生成的曲目取自多波段擴散演示網頁(https://ai.honu.io/papers/mbd/)
當前文本到音樂系統的核心問題之一是,它產生的聲音總是有一種不自然的品質,尤其是對于聲學樂器。多波段擴散使輸出聲音更加清晰自然,并將MusicGen模型提升到了一個新的水平。
為什么立體聲如此重要?
到目前為止,大多數生成音樂模型都是單聲道的。這意味著,MusicGen模型不會將任何聲音或樂器放在左側或右側,從而導致混音不那么生動和令人興奮。到目前為止,立體聲之所以被忽視,是因為生成立體聲不是一項微不足道的任務。
作為音樂家,當我們產生立體聲信號時,我們可以訪問混音中的各個樂器曲目,我們可以將它們放在任何我們想要的地方。MusicGen模型并不單獨生成所有樂器,而是生成一個組合音頻信號。如果沒有這些樂器來源,就很難產生立體聲。不幸的是,將音頻信號分解為單獨的來源是一個棘手的問題(我已經發表了一篇關于這方面的博客文章:https://medium.com/towards-data-science/ai-music-source-separation-how-it-works-and-why-it-is-so-hard-187852e54752),而且這項技術還沒有100%準備好。
因此,Meta公司決定將立體聲生成直接納入MusicGen模型。他們使用了一個由立體聲音樂組成的新數據集,訓練MusicGen產生立體聲輸出。研究人員聲稱,與單聲道相比,生成立體聲沒有額外的計算成本。
雖然我覺得論文中沒有很清楚地描述立體聲過程,但我的理解是這樣的(見下圖):MusicGen已經學會了生成兩個壓縮音頻信號(左聲道和右聲道),而不是一個單聲道信號。這些壓縮信號在組合以構建最終立體聲輸出之前必須單獨解碼。這個過程不需要兩倍的時間,是因為MusicGen現在可以在與以前一個信號幾乎相同的時間產生兩個壓縮音頻信號。
MusicGen立體聲更新示意圖(請注意,論文中沒有充分記錄這個過程,我無法100%確定,只是把它當作一個有根據的猜測。此外,圖片由作者本人提供)
能夠產生令人信服的立體聲確實使MusicGen模型與MusicLM模型或Stable Audio等其他最先進的模型不同。在我看來,這種“小”的改進對生成的音樂的生動性產生了巨大的影響。自己聽一聽(在智能手機揚聲器上可能很難聽到):
單聲道效果
立體聲效果
結論
MusicGen模型自從發布之日起就給人留下了深刻印象。然而,從那時起,Meta公司的FAIR團隊一直在不斷改進他們的產品,實現更高質量的結果,以便聽起來更真實。在生成音頻信號的文本到音樂模型(而不是MIDI等)方面,從我的角度來看,MusicGen模型領先于其競爭對手(截至2023年11月)。
此外,由于MusicGen模型及其所有相關產品(EnCodec、AudioGen)都是開源的,所以它們也必將構成令人難以置信的新創作的靈感來源,也是有抱負的人工智能音頻工程師的首選框架。如果我們看看MusicGen模型在短短6個月內取得的進步,我只能想象2024年將是激動人心的一年。
另一個重要的觀點是,Meta公司通過其透明的方法,也在為那些希望將這項技術集成到音樂軟件中的開發人員做了基礎工作。生成樣本、集思廣益的音樂創意或改變現有作品的風格——這些都是我們已經開始看到的一些令人興奮的應用。有了足夠的透明度,我們可以確保我們正在建設一個未來,讓人工智能讓音樂創作變得更加令人興奮,而不僅僅是對人類音樂才能出現的威脅。
注意:雖然MusicGen模型是開源的,但經過預訓練的模型可能不會在商業上使用!訪問audiocraft的Github存儲庫(https://github.com/facebookresearch/audiocraft),你將會了解到有關其所有組件預期用途的更多詳細信息。
參考資料
[1]Copet et al. (2023),Simple and Controllable Music Generation,https://arxiv.org/pdf/2306.05284.pdf。
[2]Défossez et al. (2022),High Fidelity Neural Audio Compression,https://arxiv.org/pdf/2210.13438.pdf。
[3]Roman et al. (2023),From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion,https://arxiv.org/abs/2308.02560。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:MusicGen Reimagined: Meta’s Under-the-Radar Advances in AI Music,作者:Max Hilsdorf