為任務選擇正確的GenAI模型需要了解每個模型使用的技術及其特定能力,下面請了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。
以前,大多數人工智能模型都專注于更好地處理、分析和解釋數據。直到最近,在所謂的生成神經網絡模型方面的突破帶來了一系列用于創建各種內容的新工具,從照片和繪畫到詩歌、代碼、電影劇本和電影。
頂級 AI 生成模型概述
研究人員在 2010 年代中期發現了新的生成 AI 模型的前景,當時開發了變分自編碼器(VAEs)、生成對抗網絡(GAN) 和擴散模型(Diffusion)。2017年問世的轉換器(Transformers)是一種突破性的神經網絡,可以大規模分析大型數據集以自動創建大型語言模型(LLM)。2020 年,研究人員引入了神經輻射場 (NeRF),這是一種從 3D 圖像生成 2D 內容的技術。
這些快速發展的生成模型是一項正在進行的工作,因為研究人員所做的調整通常會導致巨大的進步,而且顯著的進展并沒有放緩。“模型架構在不斷變化,新的模型架構將繼續開發,”在加州大學伯克利分校任教的懷特說。
每個模型都有其特殊的能力,目前,擴散模型(Diffusion)在圖像和視頻合成領域表現異常出色,轉換器模型(Transformers)在文本領域表現良好,GAN 擅長用合理的合成樣本來擴充小數據集。但是選擇最佳模型始終取決于特定的用例。
所有的模型都不相同,人工智能研究人員和ML(機器學習)工程師必須為適當的用例和所需的性能選擇合適的一個,并考慮模型在計算、內存和資本方面可能存在的限制。
特別是轉換器模型,推動了生成模型的最新進展和興奮。“人工智能模型的最新突破來自對大量數據的預訓練模型,以及使用自我監督學習來訓練沒有明確標簽的模型,”數字化轉型咨詢公司UST的首席人工智能架構師Adnan Masood說。
例如,OpenAI的生成式預訓練轉換器系列模型是該類別中最大,最強大的模型之一,比如模型之一GPT-3包含175億個參數。
頂級生成式 AI 模型的主要應用
Masood解釋說,頂級生成AI模型使用不同的技術和方法來生成新數據。主要功能和用途包括:
- VAE使用編碼器-解碼器架構來生成新數據,通常用于圖像和視頻生成,例如生成用于隱私保護的合成人臉。
- GAN 使用生成器和鑒別器來生成新數據,通常用于視頻游戲開發中以創建逼真的游戲角色。
- Diffusion添加然后消除噪聲以生成具有高細節水平的高質量圖像,從而創建近乎逼真的自然場景圖像。
- Transformer可以有效地并行處理順序數據,以進行機器翻譯、文本摘要和圖像創建。
- NeRF提供了一種使用神經表示的3D場景重建的新方法。
下面讓我們更詳細地介紹每種方法。
VAE
VAE于2014年開發,旨在使用神經網絡更有效地編碼數據。
人工智能分析平臺Sisense的AI負責人Yael Lev表示,VAE學會更有效地表示信息。它們由兩部分組成:一個編碼器(encoder),使數據更小,另一個解碼器(decoder),使數據恢復到原始形式。它們非常適合從較小的信息中創建新示例,修復嘈雜的圖像或數據,在數據中發現異常內容并填充缺失的信息。
然而,VAE也傾向于產生模糊或低質量的圖像,UST的Masood說。另一個問題是,潛在空間(用于捕獲數據結構的低維空間)錯綜復雜且具有挑戰性。這些弱點可能會限制VAE在高質量圖像或對潛在空間的清晰理解至關重要的應用中的有效性。VAE的下一次迭代可能會側重于提高生成數據的質量,提高訓練速度并探索其對順序數據的適用性。
GANs
GANs于2014年開發,用于生成逼真的面部和打印數字。GAN 將創建真實內容的生成神經網絡與用于檢測虛假內容的判別神經網絡對立起來。“逐步的,兩個網絡融合產生與原始數據無法區分的生成圖像”普華永道全球人工智能負責人Anand Rao說。
GAN 通常用于圖像生成、圖像編輯、超分辨率、數據增強、風格傳輸、音樂生成和深度偽造創建。GAN的一個問題是,它們可能會遭受模式崩潰,其中生成器產生有限和重復的輸出,使它們難以訓練。Masood說,下一代GAN將專注于提高訓練過程的穩定性和融合性,將其適用性擴展到其他領域,并開發更有效的評估指標。GAN也很難優化和穩定,并且對生成的樣本沒有明確的控制。
Diffusion
擴散模型由斯坦福大學的一組研究人員于2015年開發,用于模擬和反轉熵和噪聲。擴散技術提供了一種模擬現象的方法,例如鹽等物質如何擴散到液體中,然后逆轉它,此相同模型還有助于從空白圖像生成新內容。
擴散模型是當前圖像生成的首選,它們是流行的圖像生成服務的基本模型,例如Dall-E 2,Stable Diffusion,Midjourney和Imagen。它們還用于管道中生成語音、視頻和 3D 內容。此外,擴散技術還可用于數據插補,其中預測和生成缺失數據。
許多應用將擴散模型與LLM配對,用于文本到圖像或文本到視頻生成。例如,Stable Diffusion 2 使用對比語言-圖像預訓練模型作為文本編碼器,它還添加了用于深度和升級的模型。
Masood預測,對穩定擴散等模型的進一步改進可能側重于改進負面提示,增強以特定藝術家風格生成圖像的能力,并改善名人圖像。
Transformers
轉換器模型是由google Brain的一個團隊于2017年開發的,旨在改善語言翻譯,它們非常適合以與給定順序不同的順序處理信息,并行處理數據并使用未標記的數據擴展到大型模型。
它們可用于文本摘要、聊天機器人、推薦引擎、語言翻譯、知識庫、超個性化(通過偏好模型)、情感分析和命名實體識別,以識別人、地點和事物。它們還可用于語音識別,如OpenAI的耳語,視頻和圖像中的對象檢測,圖像字幕,文本分類活動和對話生成。
盡管Transformers具有多功能性,但它們確實存在局限性。它們的訓練成本可能很高,并且需要大型數據集。由此產生的模型也相當大,這使得識別偏差或不準確結果的來源變得具有挑戰性。馬蘇德說:“它們的復雜性也使得解釋其內部運作變得困難,阻礙了它們的可解釋性和透明度。
Transformer模型架構
NeRF
NeRF 于 2020 年開發,用于將光場的 3D 表示捕獲到神經網絡中,第一次實施非常緩慢,需要幾天時間才能捕獲第一個3D圖像。
然而,在 2022 年,英偉達的研究人員找到了一種在大約 30 秒內生成新模型的方法。這些模型可以表示3D對象 - 具有相當的質量 - 以幾兆字節為單位,而其他技術可以占用千兆字節。它們有希望能夠帶來更有效的技術來捕獲和生成元宇宙中的 3D 對象。英偉達研究總監亞歷山大·凱勒(Alexander Keller)說,NeRFs“最終可能對3D圖形的重要性與數碼相機對現代攝影的重要性一樣重要。
Masood說,NeRF在機器人,城市測繪,自主導航和虛擬現實應用方面也顯示出巨大的潛力。然而,NERF的計算成本仍然很高,將多個 NERF 組合成更大的場景也很具有挑戰性,今天NeRF唯一可行的用例是將圖像轉換為3D對象或場景。盡管存在這些限制,Masood預測NeRF將在基本圖像處理任務中找到新的角色,例如去噪,去模糊,上采樣,壓縮和圖像編輯。
GenAI生態系統進行時
重要的是要注意,這些模型正在進行中,研究人員正在尋求改進單個模型以及將它們與其他模型和處理技術相結合的方法。Lev預測,生成模型將變得更加通用,應用程序將擴展到傳統領域之外,用戶還可以更有效地指導AI模型,并了解它們如何更好地工作。
在多模態模型上也有工作正在進行中,這些模型使用檢索方法來調用針對特定任務優化的模型庫。他還希望生成模型能夠開發其他功能,例如進行API調用和使用外部工具,例如,根據公司的呼叫中心知識微調的LLM將提供問題的答案并執行故障排除,例如重置客戶調制解調器或在問題解決時發送電子郵件。
事實上,今天流行的模型架構最終可能會在未來被更高效的東西所取代。“當新架構出現時,也許Diffusion和Transformer模型將不再有用,”懷特說。我們在Diffusion上看到了這一點,因為它們的引入使得長短期記憶算法和RNN(遞歸神經網絡)對自然語言應用的方法不太有利。
有人預測,生成AI生態系統將演變為三層模型,基礎層是一系列基于文本、圖像、語音和代碼的基礎模型,這些模型攝取大量數據,基于大型深度學習模型構建,并結合了人類判斷。接下來,特定于行業和功能的領域模型將改善醫療保健、法律或其他類型的數據的處理。在頂層,公司將使用專有數據及其主題專業知識來構建專有模型。這三個層將顛覆團隊開發模型的方式,并將迎來模型即服務的新時代。
如何選擇生成式 AI 模型:首要注意事項
根據Sisense的Lev的說法,在模型之間進行選擇時的首要考慮因素包括以下內容:
您要解決的問題。選擇已知適用于您的特定任務的模型。例如,將轉換器用于語言任務,將 NeRF 用于 3D 場景。
數據的數量和質量。Diffusion需要大量良好的數據才能正常工作,而VAE則在數據較少的情況下工作得更好。
結果的質量。GAN 更適合清晰和詳細的圖像,而 VAE 更適合更平滑的結果。
訓練模型的難易程度。GAN可能很難訓練,而VAE和Diffusion更容易。
計算資源要求。NeRF和Diffusion都需要大量的計算機能力才能正常工作。
需要控制和理解。如果您想更好地控制結果或更好地了解模型的工作原理,VAE 可能比 GAN 更好。