聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:蕭簫,授權轉載發布。
一組神秘的“虛擬老婆”照片,最近在國內外社交媒體上傳瘋了。
怎么回事?
試著用手機掃一下,就能發現其中的玄機——
原來這些看起來頗為自然的照片,都是藏了二維碼的圖像。它們不僅能被手機相機識別,跳轉的網站還都是有效的:
從推特到Reddit,每隔幾條就能刷出這些二維碼照片,下面全是一片“竟然掃出來了”的驚嘆聲。
最關鍵的是,這些照片并非手動繪制,而是用Stable Diffusion生成的,背后再一次加持了神奇的ControlNet魔法。
生成的二維碼圖像風格,也遠非只有二次元虛擬人像這一種,一起來看看~
8種圖像風格任意可選
除了上述的二次元插(lao)畫(po)風格以外,作者們還展示了另外8種二維碼圖像的生成效果。
這是立體風格的二維碼圖像,看起來就像一張真正的城市照片一般:
有網友感嘆,簡直可以在物理世界中構造一個真的二維碼城市了:
甚至它只能在特定的地點、特定的日子、特定的時間被掃出來,有尋寶游戲內味了。
這類立體作品不僅細節可控(如更多的草木植被),還可以改變風格,生成更具機械感的科幻二維碼圖像:
3D城市看得不過癮,還有2D抽象風格的作品,數據都藏在小房子里了:
除此之外,二維碼還能被融入中國傳統紋樣風格中,或是被巧妙放置在瓷器或壁畫一類的裝飾物里:
更具藝術性的水墨風格也能hold住,無縫銜接畫作筆跡:
又或是這種水彩風格的畫作:
日式的浮世繪風格也沒問題:
還能嵌進PCB風格圖像里,以后電路板要找售后,直接掃碼就行(doge):
顯然,除了二維碼圖像可控,模型就連插畫風格都能很好地控制。
這背后究竟是依靠什么技術實現的?
LoRA和ControlNet齊出動
要想實現這種圖像風格+二維碼可控的效果,需要Stable Diffusion結合LoRA和ControlNet一起實現。
其中,LoRA負責控制整體的圖像風格,ControlNet則負責確保二維碼“放進”了圖像中。
LoRA全稱Low-Rank Adaptation of Large Language Models,能很好地實現少樣本學習,從而對Stable Diffusion的圖像風格生成進行更精準的控制。
換而言之,最少只需要幾十張同種風格的圖片,就能訓練一個LoRA,用來調教Stable Diffusion生成的效果。
目前,比較有特色的如中國傳統風格和浮世繪風格的圖像,作者們都已經在Civitai和Hugging Face等平臺上開源了對應的LoRA模型。
像浮世繪風格LoRA模型,就已經可以在Civitai上直接下載:
訓練這樣一個浮世繪風格的LoRA模型,并不需要很多照片,像這個模型就只用了46幅葛飾北齋《富岳三十六景(追加十景)》的浮世繪。
風格變化更加多樣的,如生成不同中國傳統紋樣的圖片,也只需要近百張圖片訓練:
就可以得到能畫出不同紋樣的LoRA模型:
QR Code ControlNet則是作者們新訓練的一個二維碼圖像生成專用ControlNet模型,目前還在不斷優化中。
作者們嘗試了不同的Stable Diffusion Checkpoint、LoRA和QR Code ControlNet的組合,生成了上面這些二維碼圖像的效果。
值得一提的是,結合最近的PS新出的Generative Fill功能,這些二維碼還能被很好地嵌進一大塊AI生成圖像中:
有網友調侃,未來就連廣告也會變得更好看了。
作者介紹
制作這個二維碼生成項目的作者一共有四位,分別來自中國傳媒大學和北京航空航天大學。
其中,倪豪和陳柏宇是中國傳媒大學大四本科生,王照涵是中國傳媒大學一年級研究生,陳智勇是北京航空航天大學大四本科生。
在這次的AI二維碼圖像生成項目前,倪豪和陳智勇就已經做出過一個參數化二維碼生成器,不過主要采用的還是圖形學方面的技術。
據倪豪介紹,他們之前的研究方向主要集中在圖形學和交互藝術上,隨著這段時間AIGC爆火,團隊也對這方面的技術產生了興趣。
這段時間里,他們開發了不少不同風格的LoRA模型,以及可控制光影的ControNet等,目前模型也都已經放在Civitai上。
團隊表示,目前這個二維碼圖像生成模型還在持續優化中,后續如果有更多的進展更新,也會同步到這個網站上。
可以碼住期待一波了~
團隊已開發的AI模型:
https://aigc.ioclab.com/index.html