日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

聲明:本文來自微信公眾號“量子位”(ID:QbitAI),作者:金磊,,授權轉載發布。

“絕不是簡單的摳圖。”

ControlNet作者最新推出的一項研究受到了一波高度關注——

給一句prompt,用Stable Diffusion可以直接生成單個或多個透明圖層(PNG)!

例如來一句:

頭發凌亂的女性,在臥室里。

Woman with messy hair, in the bedroom.

圖片

可以看到,AI不僅生成了符合prompt的完整圖像,就連背景和人物也能分開

而且把人物PNG圖像放大細看,發絲那叫一個根根分明。

圖片

再看一個例子:

燃燒的柴火,在一張桌子上,在鄉下。

Burning firewood, on a table, in the countryside.

圖片

同樣,放大“燃燒的火柴”的PNG,就連火焰周邊的黑煙都能分離出來:

圖片

這就是ControlNet作者提出的新方法——LayerDiffusion,允許大規模預訓練的潛在擴散模型(Latent Diffusion Model)生成透明圖像。

圖片

值得再強調一遍的是,LayerDiffusion絕不是摳圖那么簡單,重點在于生成

正如網友所說:

這是現在動畫、視頻制作最核心的工序之一。這一步能夠過,可以說SD一致性就不再是問題了。

圖片

還有網友以為類似這樣的工作并不難,只是“順便加個alpha通道”的事,但令他意外的是:

結果這么久才有出來的。

圖片

那么LayerDiffusion到底是如何實現的呢?

PNG,現在開始走生成路線了

LayerDiffusion的核心,是一種叫做潛在透明度(latent transparency)的方法。

簡單來說,它可以允許在不破壞預訓練潛在擴散模型(如Stable Diffusion)的潛在分布的前提下,為模型添加透明度。

圖片

在具體實現上,可以理解為在潛在圖像上添加一個精心設計過的小擾動(offset),這種擾動被編碼為一個額外的通道,與RGB通道一起構成完整的潛在圖像。

為了實現透明度的編碼和解碼,作者訓練了兩個獨立的神經網絡模型:一個是潛在透明度編碼器(latent transparency encoder),另一個是潛在透明度解碼器(latent transparency decoder)。

編碼器接收原始圖像的RGB通道和alpha通道作為輸入,將透明度信息轉換為潛在空間中的一個偏移量。

而解碼器則接收調整后的潛在圖像和重建的RGB圖像,從潛在空間中提取出透明度信息,以重建原始的透明圖像。

為了確保添加的潛在透明度不會破壞預訓練模型的潛在分布,作者提出了一種“無害性”(harmlessness)度量。

這個度量通過比較原始預訓練模型的解碼器對調整后潛在圖像的解碼結果與原始圖像的差異,來評估潛在透明度的影響。

圖片

在訓練過程中,作者還使用了一種聯合損失函數(joint loss function),它結合了重建損失(reconstruction loss)、身份損失(identity loss)和判別器損失(discriminator loss)。

它們的作用分別是:

  • 重建損失:用于確保解碼后的圖像與原始圖像盡可能相似;

  • 身份損失:用于確保調整后的潛在圖像能夠被預訓練的解碼器正確解碼;

  • 判別器損失:則是用于提高生成圖像的真實感。

通過這種方法,任何潛在擴散模型都可以被轉換為透明圖像生成器,只需對其進行微調以適應調整后的潛在空間。

圖片

潛在透明度的概念還可以擴展到生成多個透明圖層,以及與其他條件控制系統結合,實現更復雜的圖像生成任務,如前景/背景條件生成、聯合圖層生成、圖層內容的結構控制等。

圖片

圖片

圖片

值得一提的是,作者還展示了如何把ControlNet引入進來,豐富LayerDiffusion的功能:

圖片

與傳統摳圖的區別

至于LayerDiffusion與傳統摳圖上的區別,我們可以簡單歸整為以下幾點。

原生生成 vs. 后處理

LayerDiffusion是一種原生的透明圖像生成方法,它直接在生成過程中考慮并編碼透明度信息。這意味著模型在生成圖像的同時就創建了透明度通道(alpha channel),從而產生了具有透明度的圖像。

傳統的摳圖方法通常涉及先生成或獲取一個圖像,然后通過圖像編輯技術(如色鍵、邊緣檢測、用戶指定的遮罩等)來分離前景和背景。這種方法通常需要額外的步驟來處理透明度,并且可能在復雜背景或邊緣處產生不自然的過渡。

潛在空間操作 vs. 像素空間操作

LayerDiffusion在潛在空間(latent space)中進行操作,這是一個中間表示,它允許模型學習并生成更復雜的圖像特征。通過在潛在空間中編碼透明度,模型可以在生成過程中自然地處理透明度,而不需要在像素級別上進行復雜的計算。

傳統的摳圖技術通常在像素空間中進行,這可能涉及到對原始圖像的直接編輯,如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果(如火焰、煙霧)或復雜邊緣時遇到困難。

數據集和訓練

LayerDiffusion使用了一個大規模的數據集進行訓練,這個數據集包含了透明圖像對,使得模型能夠學習到生成高質量透明圖像所需的復雜分布。

傳統的摳圖方法可能依賴于較小的數據集或者特定的訓練集,這可能限制了它們處理多樣化場景的能力。

靈活性和控制

LayerDiffusion提供了更高的靈活性和控制能力,因為它允許用戶通過文本提示(text prompts)來指導圖像的生成,并且可以生成多個圖層,這些圖層可以被混合和組合以創建復雜的場景。

傳統的摳圖方法可能在控制方面更為有限,尤其是在處理復雜的圖像內容和透明度時。

質量比較

用戶研究顯示,LayerDiffusion生成的透明圖像在大多數情況下(97%)被用戶偏好,這表明其生成的透明內容在視覺上與商業透明資產相當,甚至可能更優。

傳統的摳圖方法可能在某些情況下無法達到同樣的質量,尤其是在處理具有挑戰性的透明度和邊緣時。

總而言之,LayerDiffusion提供的是一種更先進且靈活的方法來生成和處理透明圖像。

它在生成過程中直接編碼透明度,并且能夠產生高質量的結果,這在傳統的摳圖方法中是很難實現的。

關于作者

正如我們剛才提到的,這項研究的作者之一,正是大名鼎鼎的ControlNet的發明人——張呂敏

他本科就畢業于蘇州大學,大一的時候就發表了與AI繪畫相關的論文,本科期間更是發了10篇頂會一作。

目前張呂敏在斯坦福大學攻讀博士,但他為人可以說是非常低調,連Google Scholar都沒有注冊。

圖片

就目前來看,LayerDiffusion在GitHub中并沒有開源,但即便如此也擋不住大家的關注,已經斬獲660星。

圖片

畢竟張呂敏也被網友調侃為“時間管理大師”,對LayerDiffusion感興趣的小伙伴可以提前mark一波了。

圖片

參考鏈接:

[1]https://arxiv.org/abs/2402.17113

[2]https://twitter.com/op7418/status/1762729887490806159

[3]https://github.com/layerdiffusion/LayerDiffusion

分享到:
標簽:AI繪畫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定