劃重點:
?? 一個非常有意思的項目可以用 SD 直接生成透明的 PNG 圖片,也可以直接生成帶有透明度分層的圖片。
?? LayerDiffusion使得大型已經(jīng)過預(yù)訓練的潛在擴散模型能夠創(chuàng)造透明圖像。
?? 這項技術(shù)不僅可以生成單獨的透明圖像,還能生成多層透明圖層,擁有多種應(yīng)用場景。
(ChinaZ.com)2月28日 消息:用于生成圖像的大規(guī)模模型已經(jīng)成為計算機視覺的基礎(chǔ)而圖形,令人驚訝的是,很少有研究關(guān)注分層內(nèi)容生成或透明圖像生成。這種情況與巨大的市場需求形成鮮明對比。
ContorlNet的作者研究了一款名為LayerDiffusion項目,使得大型已經(jīng)過預(yù)訓練的潛在擴散模型(latent diffusion model)能夠創(chuàng)造透明圖像。LayerDiffusion可以用 SD 直接生成透明的 PNG 圖片,也可以直接生成帶有透明度分層的圖片。
它通過一種被稱為“潛在透明度”的方法,將透明度(即 alpha 通道)整合到預(yù)訓練的潛在擴散模型的潛在結(jié)構(gòu)中。這樣做的好處是,它通過以潛在偏移的形式加入透明度,幾乎不改變模型原有的潛在分布,從而保持了模型的高質(zhì)量輸出能力。基于這種方法,任何一個潛在擴散模型都可以通過對潛在空間的微調(diào),轉(zhuǎn)化為透明圖像生成器。
研究人員在訓練模型時采用了涉及人機互動的方法,收集了大量透明圖像層數(shù)據(jù)。研究結(jié)果顯示,潛在透明技術(shù)不僅可以應(yīng)用于各種開源圖像生成器,還可以適配多種條件控制系統(tǒng),實現(xiàn)不同應(yīng)用場景下的層生成和結(jié)構(gòu)控制。
研究顯示,這種潛在透明技術(shù)不僅可以應(yīng)用于不同的開源圖像生成器,還可以適配多種條件控制系統(tǒng),實現(xiàn)例如基于前景/背景條件的層生成、層的聯(lián)合生成、對層內(nèi)容進行結(jié)構(gòu)控制等多種應(yīng)用。
一項用戶研究發(fā)現(xiàn),大多數(shù)情況下(97%),相比于之前的臨時解決方案(如先生成圖像再進行摳圖處理),用戶更喜歡我們直接生成的透明內(nèi)容。用戶還表示,生成的透明圖像在質(zhì)量上可媲美真實的商業(yè)級透明素材,例如 Adobe Stock 提供的素材,展現(xiàn)出技術(shù)的強大和實用性。
論文入口:https://arxiv.org/pdf/2402.17113.pdf