劃重點:
?? 一個非常有意思的項目可以用 SD 直接生成透明的 PNG 圖片,也可以直接生成帶有透明度分層的圖片。
?? LayerDiffusion使得大型已經過預訓練的潛在擴散模型能夠創造透明圖像。
?? 這項技術不僅可以生成單獨的透明圖像,還能生成多層透明圖層,擁有多種應用場景。
(ChinaZ.com)2月28日 消息:用于生成圖像的大規模模型已經成為計算機視覺的基礎而圖形,令人驚訝的是,很少有研究關注分層內容生成或透明圖像生成。這種情況與巨大的市場需求形成鮮明對比。
ContorlNet的作者研究了一款名為LayerDiffusion項目,使得大型已經過預訓練的潛在擴散模型(latent diffusion model)能夠創造透明圖像。LayerDiffusion可以用 SD 直接生成透明的 PNG 圖片,也可以直接生成帶有透明度分層的圖片。
它通過一種被稱為“潛在透明度”的方法,將透明度(即 alpha 通道)整合到預訓練的潛在擴散模型的潛在結構中。這樣做的好處是,它通過以潛在偏移的形式加入透明度,幾乎不改變模型原有的潛在分布,從而保持了模型的高質量輸出能力。基于這種方法,任何一個潛在擴散模型都可以通過對潛在空間的微調,轉化為透明圖像生成器。
研究人員在訓練模型時采用了涉及人機互動的方法,收集了大量透明圖像層數據。研究結果顯示,潛在透明技術不僅可以應用于各種開源圖像生成器,還可以適配多種條件控制系統,實現不同應用場景下的層生成和結構控制。
研究顯示,這種潛在透明技術不僅可以應用于不同的開源圖像生成器,還可以適配多種條件控制系統,實現例如基于前景/背景條件的層生成、層的聯合生成、對層內容進行結構控制等多種應用。
一項用戶研究發現,大多數情況下(97%),相比于之前的臨時解決方案(如先生成圖像再進行摳圖處理),用戶更喜歡我們直接生成的透明內容。用戶還表示,生成的透明圖像在質量上可媲美真實的商業級透明素材,例如 Adobe Stock 提供的素材,展現出技術的強大和實用性。
論文入口:https://arxiv.org/pdf/2402.17113.pdf