AI在畫畫這塊兒,已經拿捏的死死的。
近日,Meta也整了一個AI「畫家」——Make-A-Scene。
還以為只是用文字生成畫作就這么簡單嗎?
要知道,僅是靠文字描述還有時候會「翻車」,就比如谷歌前段時間推出的「藝術家」Parti。
「一個沒有香蕉的盤子,旁邊有一個沒有橙汁的玻璃杯。」
這次,Make-A-Scene可以通過文本描述,再加上一張草圖,就能生成你想要的樣子。
構圖上下、左右、大小、形狀等各種元素都由你說了算。
就連LeCun也出來力推自家的產品了,創意就不用說了,關鍵還「可控」!
Make-A-Scene有多厲害,不如一起來看看。
Meta的神筆馬良
光說不練,假把式!
我們這就看看,人們究竟會怎么用Make-A-Scene,來實現他們的想象力。
研究團隊將和知名的人工智能藝術家一起來進行Make-A-Scene的演示環節。
藝術家團隊可謂陣容強大,包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol等等,這些大師都有第一手的應用生成性人工智能的使用經驗。
研發團隊讓這些藝術家們用Make-A-Scene作為創作過程的一部分,邊使用邊反饋。
接下來,我們就來欣賞一下大師們用Make-A-Scene創作出的作品吧。
例如,Sofia Crespo是一位專注于自然和技術交融的藝術家。她很愛想象從來沒存在過的人造生命形式感,所以她使用Make-A-Scene的素描和文本提示功能,創造了全新的「混合生物」。
比如,花形的水母。
Crespo利用它的自由繪畫功能,可以快速迭代新的想法。她表示,Make-A-Scene將有助于藝術家更好地發揮創造力,能讓藝術家使用更直觀的界面作畫。
(花型的水母)
Scott Eaton是一位藝術家、教育家和創意技術專家,他的工作是調研究當代現狀和技術之間的關系。
他用Make-A-Scene作為一種構成場景的方式,通過不同的提示來探索場景的變化,比如用類似「沙漠中沉沒和腐爛的摩天大樓」這種主題來強調氣候危機。
(沙漠中的摩天大樓)
Alexander Reben是一位藝術家、研究人員和機器人專家。
他認為,如果能對輸出有更多的掌控,確實有助于表達自己的藝術意圖。他將這些工具融入了他正在進行的系列作品之中。
而對于媒體藝術家和導演Refik Anadol來說,這個工具是一種促進想象力發展、更好地探索未知領域的方式。
其實,這個原型工具不僅僅是為對藝術有興趣的人準備的。
研究團隊相信,Make-A-Scene可以幫助任何人更好地表達自己,包括那些沒什么藝術細胞的人。
作為開始,研究團隊向美達公司的員工提供了一部分使用權。他們正在測試并提供關于他們使用Make-A-Scene經驗的反饋。
美達公司的項目經理Andy Boyatzis使用Make-A-Scene與他兩歲和四歲的孩子一起創造藝術。他們用俏皮的圖畫把他們的想法和想象力變成了現實。
以下就是他們的作品~
一只五彩斑斕的雕塑貓~是不是很可愛。但是這個色調其實有點不忍直視,像小孩把一大坨橡皮泥瞎揉到一起。
一只乘坐火車的怪獸熊。說真的,密恐患者抓緊繞行。小編看完這張圖密恐直接竄到頂了。看看這詭異的胳膊,像臉一樣的身子,像眼珠子一樣的輪子...
一座山峰。講道理,這張圖蠻有意境的。但有沒有感覺,遠處的山和近處的小火車壓根不是一個畫風?
背后技術
雖然目前的方法提供了文本和圖像域之間還算不錯的轉換,但它們仍然有幾個關鍵問題沒有很好地解決:可控性、人類感知、圖像質量。
該模型的方法一定程度提高了結構一致性和圖像質量。
整個場景由三個互補的語義分割組(全景、人類和人臉)組成。
通過組合三個提取的語義分割組,網絡學習生成語義的布局和條件,生成最終圖像。
為了創建場景的token空間,作者們采用了「VQ-SEG」,這是一項對「VQ-VAE」的改進。
在該實現中,「VQ-SEG」的輸入和輸出都是m個通道。附加通道是分隔不同類和實例的邊的映射。邊緣通道為同一類的相鄰實例提供分離,并強調具有高度重要性的稀缺類。
在訓練「VQ-SEG」網絡時,由于每個人臉部分在場景空間中所占的像素數量相對較少,因此導致了重建場景中代表人臉部分(如眼睛、鼻子、嘴唇、眉毛)的語義分割頻繁減少。
對此,作者們嘗試在分割人臉部分類的基礎上采用加權二元交叉熵人臉損失,更加突出人臉部分的重要性。此外,還將人臉部分的邊緣作為上述語義分割邊緣圖的一部分。
作者們采用了在Imag.NET數據集上訓練的預訓練VGG網絡,而不是專門的人臉嵌入網絡,并引入了表示重建圖像和真實圖像之間感知差異的特征匹配損失。
通過使用特征匹配,給VQ-IMG中的encoder和decoder分別添加額外的上采樣層和下采樣層,便可以將輸出圖像的分辨率從256×256進行提高。
想必大家對Transformer并不陌生,那么基于場景的Transformer又是什么呢?
它依賴于一個具有三個獨立連續的token空間的自回歸Transformer,即文本、場景和圖像。
token序列由BPE編碼器編碼的文本token、VQ-SEG編碼的場景token以及VQ-IMG編碼或者解碼的圖像token組成。
在訓練基于場景的Transformer之前,每個編碼好的token序列都對應一個[文本,場景,圖像]元組,使用相應的encoder提取。
此外,作者們還采用了無分類器引導,即將無條件樣本引導到條件樣本的過程。
該模型實現了SOTA結果。具體看一下和之前方法的效果對比
現在,研究人員還將Make-A-Scene整合了一個超分辨率網絡,就可以生成2048x2048、4倍分辨率的圖像。
如下:
其實,與其他生成AI模型一樣,Make-A-Scene通過對數百萬個示例圖像進行訓練來學習視覺和文本之間的關系。
不可否認的是,訓練數據中反映的偏差會影響這些模型的輸出。
正如研究者所指出的那樣,Make-A-Scene還有很多地方有待提高。
參考資料:
https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/