【ITBEAR科技資訊】6月12日消息,meta日前在GitHub上發布了一款名為MusicGen的AI語言模型,該模型基于谷歌2017年推出的Transformer模型,主要用于音樂生成。據meta的研發團隊透露,他們經過對20000小時的授權音樂進行訓練,并采用了meta的EnCodec編碼器,將音頻數據分解為更小的單元進行并行處理,以提升MusicGen的運算效率和生成速度,使其在同類AI模型中表現出色。
這一開源模型支持將文本和旋律結合輸入,用戶可以提出生成"一首輕快的曲目"并要求將其與貝多芬的《歡樂頌》相結合。研發團隊通過對MusicGen的實際測試發現,該模型在測試音樂與文本提示的匹配度以及作曲的可信度等指標上表現優秀,總體而言略高于谷歌的MusicLM水平。相較于其他音樂模型如Riffusion、Mousai和Noise2Music等,MusicGen也展現出更出色的表現。
據ITBEAR科技資訊了解,meta已授權該模型供商業使用,并在Huggingface上發布了一個供演示用的網頁應用。這一開源舉措將為音樂生成領域帶來更多創新和應用可能性。MusicGen的推出為音樂愛好者和專業音樂創作者提供了一個有趣且實用的工具,可以幫助他們從文本和旋律中快速生成完整的樂曲。隨著AI技術的不斷發展,人工智能音樂創作領域將迎來更多突破和進步。