英偉達在近日的一次展示中,向外界介紹了一種全新的音樂與音頻生成人工智能模型。這款名為Fugatto的模型,全稱為Foundational Generative Audio Transformer Opus 1,它的誕生為音樂、電影及視頻游戲制作領域帶來了全新的可能性。
作為全球頂尖的人工智能系統芯片和軟件供應商,英偉達在人工智能領域的創新從未停歇。然而,Fugatto目前仍處于內部研發階段,英偉達方面表示,尚未有公開發布該技術的具體計劃。
Fugatto模型的能力十分強大,它不僅能夠根據文本提示生成音頻或視頻,還能夠接收并修改現有的音頻文件。比如,它可以將一段鋼琴彈奏的旋律轉換成人聲演唱的版本,或者改變口語錄音中的口音和情緒表達。這一特性使得它在音頻編輯和制作領域具有極高的應用價值。
在英偉達應用深度學習研究副總裁Bryan Catanzaro看來,生成式人工智能將為音樂、視頻游戲等創意產業帶來革命性的變化。他提到,回顧過去50年的合成音頻發展,計算機和合成器的出現已經讓音樂聽起來截然不同。而現在,生成式人工智能的加入,將為普通人提供更多創造事物的機會。
然而,隨著人工智能技術在娛樂行業的廣泛應用,科技界與好萊塢之間的關系也變得日益緊張。特別是在好萊塢明星斯嘉麗·約翰遜指責OpenAI模仿她的聲音之后,如何平衡人工智能技術的創新與版權保護之間的關系,成為了業界關注的焦點。英偉達方面也表示,他們正在謹慎地考慮Fugatto模型的發布問題,以避免潛在的風險。
據了解,英偉達的新模型是在開源數據上進行訓練的。盡管目前尚未確定是否以及何時公開發布,但英偉達方面表示,他們正在積極探討如何確保該技術的安全使用。Bryan Catanzaro強調,任何生成技術都存在一定的風險,因此他們需要對此保持謹慎。
除了英偉達之外,Runway等初創公司和meta Platforms等大型公司也在積極探索人工智能技術在音頻和視頻生成方面的應用。這些技術能夠根據文本提示生成各種新奇的聲音和畫面,為創意產業提供了更多的可能性。
然而,隨著這些技術的不斷發展,如何防止濫用也成為了業界亟待解決的問題。例如,用戶可能會利用這些技術生成錯誤信息或侵犯版權的內容。因此,英偉達等公司在推進技術創新的同時,也需要積極尋求解決方案,以確保這些技術的合法、安全和合理使用。