日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

機器之心編輯部

訓(xùn)練一個媲美 MJ 的文生圖模型,26K 美元就能實現(xiàn)了。

當(dāng)前,最先進(jìn)的文本到圖像(T2I)模型需要大量的訓(xùn)練成本(例如,數(shù)百萬個 GPU 小時),這嚴(yán)重阻礙了 AIGC 社區(qū)的基礎(chǔ)創(chuàng)新,同時增加了二氧化碳排放。

現(xiàn)在,來自華為諾亞方舟實驗室等研究機構(gòu)的研究者聯(lián)合提出了開創(chuàng)性的文本到圖像(T2I)模型 PixArt-α, 只需要 Stable Diffusion v1.5 訓(xùn)練時間的 10.8%(約 675 vs 約 6250 A100 GPU 天),省下近 30 萬美元(26000 美元 vs 320000 美元)。與更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的訓(xùn)練成本僅為 1%,且支持直接生成高達(dá) 1024×1024 分辨率的高分辨率圖像。

PixArt-α 模型不僅大幅降低了訓(xùn)練成本,還顯著減少了二氧化碳排放,同時提供了接近商業(yè)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量圖像生成。PixArt-α 的出現(xiàn),為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,以加速他們構(gòu)建自己的高質(zhì)量且低成本的生成模型。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

論文地址:

https://arxiv.org/abs/2310.00426

主頁:

https://pixart-alpha.Github.io/

項目地址:

https://github.com/PixArt-alpha/PixArt-alpha

總的來說,PixArt-α 是一種基于 Transformer 的 T2I 擴散模型,其圖像生成質(zhì)量可以與最先進(jìn)的圖像生成器(例如,Imagen [1],SDXL [2],甚至 Midjourney [3])相媲美,達(dá)到接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。此外,它支持高達(dá) 1024×1024 分辨率的高分辨率圖像的直接生成,訓(xùn)練成本低,如下圖 1 所示。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 1.PixArt-α 產(chǎn)生的樣本展示出了其卓越的質(zhì)量,其特點是高精確度和準(zhǔn)確性的圖像生成。

為了實現(xiàn)這個目標(biāo),該研究提出了三個核心設(shè)計:

訓(xùn)練策略分解:該研究設(shè)計了三個獨特的訓(xùn)練步驟,分別優(yōu)化像素間依賴關(guān)系,文本圖像對齊和圖像美學(xué)質(zhì)量;

高效的 T2I Transformer 結(jié)構(gòu):該研究將跨注意力模塊整合到 Diffusion Transformer(DiT)[6] 中,以注入文本信息并簡化計算復(fù)雜的類條件分支;

高信息密度數(shù)據(jù):該研究強調(diào)文本圖像對中概念密度的重要性,并利用大視覺語言模型自動標(biāo)記密集的偽文本標(biāo)簽以協(xié)助文本圖像對齊學(xué)習(xí)。

大量的實驗表明,PixArt-α 在圖像質(zhì)量、藝術(shù)性和語義控制方面表現(xiàn)出色。研究團(tuán)隊希望 PixArt-α 能為 AIGC 社區(qū)和初創(chuàng)公司提供新的思路,以加速他們從頭開始構(gòu)建自己的高質(zhì)量且低成本的生成模型。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 2.T2I 方法之間的二氧化碳排放和訓(xùn)練成本比較。PixArt-α 實現(xiàn)了極低的訓(xùn)練成本,僅為 26,000 美元。相比于 RAPHAEL,PixArt-α 的二氧化碳排放和訓(xùn)練成本分別僅為 1.1% 和 0.85%。

從現(xiàn)象看本質(zhì):從訓(xùn)練流程和數(shù)據(jù)的角度重新審視文生圖任務(wù)

從現(xiàn)有訓(xùn)練流程出發(fā):文本到圖像(T2I)生成任務(wù)可以分解為三個方面:建模像素間關(guān)系、文本與圖像的精確對齊以及高審美質(zhì)量生成。然而,現(xiàn)有方法將這三個問題混合在一起,并直接使用大量數(shù)據(jù)從零開始訓(xùn)練,導(dǎo)致訓(xùn)練效率低下。

從訓(xùn)練數(shù)據(jù)出發(fā):如圖 3 所示,現(xiàn)有的文本 - 圖像對常常存在文本 - 圖像不對齊、描述不足、包含大量不常見詞匯以及包含低質(zhì)量數(shù)據(jù)等問題。這些問題給訓(xùn)練帶來了困難,導(dǎo)致需要進(jìn)行數(shù)百萬次迭代才能實現(xiàn)文本和圖像之間的穩(wěn)定對齊。為了解決這個挑戰(zhàn),該研究引入了一個創(chuàng)新的自動標(biāo)注流程來生成精確的圖像標(biāo)題。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 3.LAION [6] 原生標(biāo)題 v.s. LLaVA 精細(xì)標(biāo)題的對比。LLaVA 提供了信息密度更高的文本,幫助模型在每次迭代中掌握更多概念,提高了文本 - 圖像對齊的效率。

解耦訓(xùn)練策略:不同數(shù)據(jù)獲取、強化不同能力

1. 像素間依賴學(xué)習(xí)

當(dāng)前 class-condition 的方法 [7] 在生成語義連貫且像素邏輯合理的圖像上展現(xiàn)出了卓越的性能。訓(xùn)練一個符合自然圖像分布的 class-condition 圖像生成模型,不僅訓(xùn)練相對簡單,成本也較低。該研究還發(fā)現(xiàn),適當(dāng)?shù)某跏蓟梢詷O大地提升圖像生成模型的訓(xùn)練效率。因此,PixArt 模型采用了一個 Imag.NET 預(yù)訓(xùn)練模型作為基礎(chǔ),來增強模型的性能。此外,該研究也提出了重參數(shù)化來兼容預(yù)訓(xùn)練權(quán)重,以確保最佳的算法效果。

2. 文本圖像對齊

從預(yù)訓(xùn)練的 class-condition 圖像生成模型過渡到基于文本的圖像生成模型的主要挑戰(zhàn)在于如何實現(xiàn)文本概念與圖像之間的精確對齊。這個對齊過程既耗時,也具有挑戰(zhàn)性。為了有效地促進(jìn)這個過程,該研究構(gòu)建了一個高概念密度的由精確的文本 - 圖像對組成的數(shù)據(jù)集。通過使用精確且信息豐富的數(shù)據(jù),幫助模型在單次訓(xùn)練迭代中有效學(xué)習(xí)更多的概念,同時相較于之前的數(shù)據(jù)集,遇到的模糊性大大減少。這種策略性的方法賦予了 PixArt-α 高效地將文本描述與圖像對齊的能力。

3. 圖像美學(xué)質(zhì)量

在第三階段,該研究對模型進(jìn)行了微調(diào),利用了高質(zhì)量的美學(xué)數(shù)據(jù)并提高了模型的分辨率,使得模型具有生成高質(zhì)量圖像的能力。值得注意的是,研究團(tuán)隊觀察到模型在該階段的收斂速度顯著加快,這主要歸功于前兩階段學(xué)習(xí)到的的強大的先驗知識。

刪繁就簡:高效 T2I Transformer 架構(gòu)

PixArt-α 采用了 Diffusion Transformer (DiT) 作為基礎(chǔ)架構(gòu),如圖 4 所示,并創(chuàng)新地提出了以下幾個專門的設(shè)計方案來處理 T2I 任務(wù):

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 4.PixArt-α 模型架構(gòu)。

Cross-Attention layer 該研究在 DiT 模塊中加入了一個多頭交叉注意力層。它位于自注意力層和前饋層之間,使得模型能夠靈活地與從語言模型中提取的文本特征進(jìn)行交互。為了利用預(yù)訓(xùn)練權(quán)重,該研究將交叉注意力層的輸出投影層權(quán)重初始化為零,有效地作為恒等映射來保留輸入供后續(xù)層使用。

AdaLN-single 該研究發(fā)現(xiàn)在 DiT 的自適應(yīng)標(biāo)準(zhǔn)化層(adaLN)中,線性投影(MLP)占據(jù)了大量(27%)的參數(shù)。研究團(tuán)隊提出了 adaLN-single 模塊來降低模型的參數(shù)量,它只在噪聲進(jìn)入模型第一層之前,僅使用時間特征嵌入作為輸入進(jìn)行獨立控制(如圖 4 右側(cè)所示), 并在所有層中共享。研究團(tuán)隊為每一層設(shè)置了層特定的可學(xué)習(xí)特征嵌入,它可適應(yīng)性地調(diào)整不同層中的尺度和位移參數(shù)。

重參數(shù)化 該研究提出了重參數(shù)化技巧來保持與預(yù)訓(xùn)練權(quán)重的兼容性。

實驗表明,通過整合全局 MLP 和層次嵌入來處理時間步信息,以及采用跨注意力層處理文本信息,可以在有效減小模型大小的同時,保持模型的生成能力。

數(shù)據(jù)構(gòu)建:全新自動化圖文對標(biāo)注工具

該研究發(fā)現(xiàn) LAION 數(shù)據(jù)集中存在大量簡單的商品樣圖,并選擇使用專為多樣性目標(biāo)分割設(shè)計的 SAM 數(shù)據(jù)集 [8],其圖像中包含了豐富多樣的對象,即較高的信息 / 概念密度,更加貼合前文高信息密度數(shù)據(jù)可以幫助圖文對齊的論述。標(biāo)注流程如圖 5 所示。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 5.為 LAION(左圖)和 SAM(右圖)進(jìn)行自定義提示的自動標(biāo)注功能。圖中綠色高亮的詞匯代表 LAION 中的原始標(biāo)題,而紅色標(biāo)注的則是 LLaVA 標(biāo)注的詳細(xì)信息。

研究團(tuán)隊對 LAION 和 SAM 兩個數(shù)據(jù)集進(jìn)行了名詞統(tǒng)計,如圖 6 所示。LAION 的名詞統(tǒng)計顯示,雖然其總的名詞種類多達(dá) 2451K 種,但有效名詞的比例僅為 8%,這意味著其中 91% 以上的名詞是不常見的,這可能會導(dǎo)致模型訓(xùn)練的不穩(wěn)定。相比之下,LAION-LLaVA 的統(tǒng)計結(jié)果顯示,有效名詞的比例有所提升,總名詞數(shù)量和每張圖像的平均名詞數(shù)量顯著增加。這表明,LLaVA 生成的標(biāo)簽?zāi)軌虮M量涵蓋每張圖片中更多的物體和概念。同樣的,在實際使用的 SAM 數(shù)據(jù)以及內(nèi)部數(shù)據(jù)中,各項指標(biāo)都有較 LAION-LLaVA 有更大的提升,這體現(xiàn)了更高的概念密度數(shù)據(jù)在訓(xùn)練中的重要性。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 6.不同數(shù)據(jù)集的名詞概念統(tǒng)計。VN:有效的不同名詞種類(出現(xiàn)次數(shù)超過10次);DN:總的不同名詞種類;Average:每張圖片的平均名詞數(shù)量。

量化指標(biāo)驗證:指標(biāo)下的能力

該研究最終在 User study、T2ICompBench [9] 以及 MSCOCO Zero-shot FID 三項指標(biāo)上驗證了 PixArt-α 的能力。更多評價結(jié)果與討論請參考原論文。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 7.根據(jù)對 Ernie-vilg 2.0 [10] 的 300 個固定提示的用戶體驗研究,比例值表示了偏好對應(yīng)模型的用戶百分比。PixArt-α 在質(zhì)量和對齊度方面都表現(xiàn)出超越其他模型的優(yōu)秀性能。

如下圖表 8 所示,在 T2I-CompBench 上進(jìn)行的對齊評估中,PixArt-α 在屬性綁定、對象關(guān)系和復(fù)雜組合方面展示出卓越的性能,這表明 PixArt-α 具有優(yōu)越的組合生成能力。其中,用藍(lán)色高亮表示最好的值,用綠色表示次優(yōu)的值。基線數(shù)據(jù)來源于 T2ICompBench。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 8

該研究全面比較了 PixArt-α 和最近的 T2I 模型,考慮了幾個關(guān)鍵因素:模型大小、訓(xùn)練圖像總量、COCO FID-30K 分?jǐn)?shù)(Zero-shot)以及計算成本(GPU 天數(shù)),結(jié)果如下圖表 9 所示。該研究提出的高效方法 PixArt-α 顯著減少了資源消耗,包括訓(xùn)練數(shù)據(jù)使用和訓(xùn)練時間。基線數(shù)據(jù)來源于 GigaGAN [11]。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 9

可視化驗證:No cheery-pick battle

用于可視化的圖像文本均取自其他方法中,本文中的圖片全部隨機生成,無需 cheery-pick。

1. 與 Midjourney 對比

圖表 10 與 Midjourney 的比較:此次比較使用的提示是從網(wǎng)上隨機抽樣的。為了確保公平的比較,研究團(tuán)隊選擇了兩種模型生成的第一個結(jié)果進(jìn)行對比。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 10

2. 與更多文生圖方法的對比

圖表 11 PixArt-α 與近期代表性的方法對比,如 Stable Diffusion XL [2]、DeepFloyd [12]、DALL-E 2 [13]、ERNIE-ViLG 2.0 [10] 以及 RAPHAEL [5]。所有方法都使用了與 RAPHAEL 中相同的提示詞,其中人類藝術(shù)家希望在生成圖像中保留的詞語被用紅色高亮。各行的具體提示在圖示下方提供。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 11

3. 文本直接控制風(fēng)格

圖表 12 提示詞混合:PixArt-α 能夠直接通過文本提示操控圖像風(fēng)格。利用風(fēng)格控制物體,PixArt-α 生成了五個輸出樣本。例如,位于圖示左角的第一個例子的第二個圖片,使用的提示是 “Pixel Art of the black hole in the space”。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 12

方法可拓展性:ControlNet & Dreambooth

如下圖表 13 所示,PixArt-α 能夠與 Dreambooth [14] 結(jié)合使用。只需給定幾張圖片和文本提示,PixArt-α 就能生成高保真度的圖像,這些圖像能展示與環(huán)境的自然互動(a)和精確的物體顏色修改(b)。這證明了 PixArt-α 能生成具有卓越質(zhì)量的圖像,并且在定制擴展方面具有強大的能力。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 13

圖表 14:PixArt-α+ControlNet [15] 定制樣本。該研究使用輸入圖片生成相應(yīng)的 HED 邊緣圖像,并將它們作為 PixArt-α ControlNet 的控制信號。

超低訓(xùn)練成本文生圖模型PixArt,效果媲美MJ,只需SD 10%訓(xùn)練時間

圖表 14

總結(jié)

總的來說,該研究提出了 PixArt-α,這是一種基于 Transformer 的文本到圖像(T2I)擴散模型,它在顯著降低訓(xùn)練成本和二氧化碳排放的同時,實現(xiàn)了超強的圖像生成質(zhì)量。PixArt-α 的三大核心設(shè)計,包括訓(xùn)練策略的分解、高效的 T2I Transformer 架構(gòu)和高信息量的數(shù)據(jù),都為 PixArt-α 的成功做出了貢獻(xiàn)。通過大量的實驗,該研究證明了 PixArt-α 在圖像生成質(zhì)量上達(dá)到了接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。有了以上的設(shè)計,PixArt-α 為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,使他們能夠構(gòu)建自己的高質(zhì)量且低成本的 T2I 模型。研究團(tuán)隊希望這項工作能激發(fā)這個領(lǐng)域的進(jìn)一步創(chuàng)新和進(jìn)步。

[1] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. In NeurIPS, 2022.

[2] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Muller, Joe ¨ Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In arXiv, 2023.

[3] Midjourney. Midjourney, 2023. URL https://www.midjourney.com.

[4] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.

[5] Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. In arXiv, 2023b.

[6] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. In arXiv, 2021.

[7] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.

[8] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In ICCV, 2023.

[9] Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. In ICCV, 2023.

[10] Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, et al. Ernie-vilg 2.0: Improving text-to-image diffusion model with knowledge-enhanced mixture-of-denoising-experts. In CVPR, 2023.

[11] Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, and Taesung Park. Scaling up gans for text-to-image synthesis. In CVPR, 2023.

[12] DeepFloyd. Deepfloyd, 2023. URL https://www.deepfloyd.ai/

[13] OpenAI. Dalle-2, 2023. URLhttps://openai.com/dall-e-2.

[14] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In arXiv, 2022.

[15] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.

分享到:
標(biāo)簽:PixArt
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達(dá)人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定