突然間,AI 文字轉(zhuǎn)圖片成為了全球科技業(yè)的一大流行技術(shù)趨勢(shì)。
幾周前我們報(bào)道了“新一代梗圖之王” DALL·E mini,一個(gè)腦洞十分清奇的文字轉(zhuǎn)圖片 AI 小工具。當(dāng)時(shí)我們也提到,包括谷歌、OpenAI 等大公司和頂級(jí)研究機(jī)構(gòu)都在開發(fā)相關(guān)模型,就連時(shí)尚雜志《COSMO》都采用 AI 來設(shè)計(jì)雜志封面。
圖片來源:COSMO 雜志
然而令許多人沒想到是:
就在各家硅谷大廠斥巨資研發(fā)、砸了無數(shù)的人力、發(fā)了無數(shù)的論文,卻還在測(cè)試相關(guān)技術(shù)的時(shí)候,TikTok 居然異軍突起,首先把 AI 文字轉(zhuǎn)圖片做到了產(chǎn)品里,而且直接交到了全球十億用戶的手上……
亂拳打死老師傅,中國速度太快了
在 TikTok 的特效菜單下,最近增加了一個(gè)名叫“AI 綠幕” (AI Greenscreen) 的新選項(xiàng)。
點(diǎn)擊這個(gè)選項(xiàng),然后在屏幕中間的對(duì)話框里輸入一段文字描述,只用不到5秒的時(shí)間,TikTok 就可以根據(jù)文字描述生成一張豎版畫作,用作短視頻的背景:
圖片來源:硅星人截圖
TikTok 用的這個(gè)文字轉(zhuǎn)圖片模型,還是非常簡(jiǎn)單的。硅星人測(cè)試了幾個(gè)含義大相徑庭的提示,生成的圖片可以說都十分的“迷幻",沒有任何寫實(shí)色彩。
但這并不是缺點(diǎn)點(diǎn)——正相反,生成結(jié)果具有非常強(qiáng)的水彩/油畫感覺,風(fēng)格遷移 (style transfer) 的痕跡明顯,而且用的顏色也都鮮亮明快,給人一種耳目一新的感受。
圖片來源:TechCrunch 截圖
我還想單獨(dú)說一下下面我自己生成的圖片:
下圖左邊的提示字段是知名游戲“最后生還者”。生成結(jié)果的辨識(shí)度太高了,這不正是游戲主角 Ellie 被泥漿血水浸濕的頭發(fā)嗎?
右圖更有意思,提示是“轟炸”:我完全沒有想到如此“不和諧”的字段,TikTok 的模型居然生成的結(jié)果卻相當(dāng)?shù)?ldquo;自洽”,特別是圖中的“轟炸機(jī)”反而看起來像是代表和平的“白鴿”——是否你也能讀出一點(diǎn)諷刺的意味?
圖片來源:硅星人截圖
當(dāng)然話說回來,這些只是我自己的解讀和感受,絕不可能是模型的“本意”。但是有趣的藝術(shù)作品不正應(yīng)該是這樣嘛,讓人能夠發(fā)現(xiàn)一些巧妙的“彩蛋”,甚至浮想聯(lián)翩,解讀出另外的含義。
從這一角度,我還是非常認(rèn)可 TikTok 目前部署的這個(gè)模型的。
模型的質(zhì)量也值得一提。The Verge、TechCrunch 等美國媒體測(cè)試了一些特殊的敏感字段,AI 綠幕生成結(jié)果更加抽象了,顯示出字節(jié)部署的模型在爭(zhēng)議字段上可能已經(jīng)做出了提前規(guī)避。
要知道 AI 文字生成圖片本來就不是簡(jiǎn)單技術(shù),避免爭(zhēng)議/道德風(fēng)險(xiǎn)更是一項(xiàng)相當(dāng)復(fù)雜的工作。
圖片來源:The Verge 截圖
正如文章前面提到,谷歌、OpenAI 等巨頭公司和知名機(jī)構(gòu)開發(fā)的 AI 文字生成圖片模型,目前都處于剛剛發(fā)布或者小范圍測(cè)試,還在“紙上談兵”的階段。
這邊 TikTok 不僅很快跟進(jìn)推出了同類模型,更厲害的是已經(jīng)將其投放到全球十億用戶量級(jí)別的產(chǎn)品里了。
本來以為 AI 藝術(shù)創(chuàng)作的潮流還是幾個(gè)硅谷大廠在引領(lǐng),沒想到字節(jié)跳動(dòng)居然“亂拳打死老師傅”——必須給中國互聯(lián)網(wǎng)科技公司的工作速度和質(zhì)量點(diǎn)贊了。
AI創(chuàng)作成潮流,硅谷大廠擠破頭
早在2020年,全球知名的人工智能基礎(chǔ)科研機(jī)構(gòu) OpenAI 發(fā)布了一個(gè)名為 GPT-3 語言模型。當(dāng)時(shí) OpenAI 的論文題為“Language Models are Few-Shot Learners”,直接點(diǎn)出了超大規(guī)模語言模型在多種非訓(xùn)練人物上具備強(qiáng)大、快速的學(xué)習(xí)和掌握能力。
GPT-3 也完全沒令人失望,在小范圍開放測(cè)試 API 之后,外界人士用它開發(fā)出了各種各樣神奇的 demo,展示了寫段子、翻譯公式、解數(shù)學(xué)題、完成用戶界面設(shè)計(jì)、生成財(cái)務(wù)報(bào)表等能力。
“AI 文字生成圖片” 也是這些能力的其中一項(xiàng)。
圖片來源:硅星人
包括 OpenAI、谷歌、Midjourney、Stability AI 等一眾大小公司,已經(jīng)開發(fā)出了多個(gè)文字轉(zhuǎn)圖片生成模型,展示出神經(jīng)網(wǎng)絡(luò)模型具備令人驚訝的藝術(shù)創(chuàng)作能力。
從 AI 文字轉(zhuǎn)圖片生成技術(shù)開始得到公眾關(guān)注,到今天各路大廠和小公司擠破頭也要摻和,各種不開放的、開放的、收費(fèi)和免費(fèi)的模型層出不窮……也就過去了一年左右的時(shí)間。
在這些模型當(dāng)中,OpenAI 的 DALL·E 是最著名的一款。該模型一代于2021年推出,今年剛剛更新到了二代。用戶只需提供自然語言描述,模型就能夠生成非常寫實(shí) (photorealisitic) 的圖片。
圖片來源:OpenAI
除了從零開始生成全新照片,DALL·E 2 還有更多功能,適合現(xiàn)實(shí)中多種藝術(shù)工作場(chǎng)景。
比如它的編輯能力,可以在一張已經(jīng)存在的照片中,在用戶任選的位置“刪除”或者“添加”物體,并且編輯后的效果仍然很寫實(shí):
圖示:在照片的不同位置添加“火烈鳥”。圖片來源:OpenAI
再比如 DALL·E 2 還具備“啟發(fā)”的能力,能夠根據(jù)一張已經(jīng)給定的圖片,生成風(fēng)格近相同的新照片:
圖片來源:OpenAI
順便一提:有個(gè)跟 OpenAI 沒關(guān)系的第三方開發(fā)者,自己仿著 DALL·E 做了一個(gè)圖片生成模型,還給免費(fèi)開放了,取名為 DALL·E mini。
結(jié)果這個(gè)“仿制品”比正品還受歡迎,在社交網(wǎng)絡(luò) Twitter 上專門搬運(yùn)這個(gè)模型生成的奇怪圖片的賬號(hào),粉絲量都破了百萬。甚至逼得 OpenAI 專門出來澄清跟它沒關(guān)系,要求開發(fā)者做出改變。現(xiàn)在這個(gè)免費(fèi)小工具已經(jīng)改名為 Craiyon 了。
(聽說此事之后,粉絲們還做了一張梗圖,嘲笑 OpenAI 那邊還在控制測(cè)試權(quán)限,這邊 DALL·E mini 早就給全網(wǎng)玩嗨了……)
圖片來源:FALSEKNEES
而在硅谷大廠的行列當(dāng)中,現(xiàn)在谷歌是已知?jiǎng)幼髯羁斓模?DALL·E 2 出來不久后也發(fā)布了自己的模型,名為 Imagen。
就像 DALL·E 的根源是語言超大模型 GPT-3,Imagen 的根源也是谷歌開發(fā)的泛用型超大語言模型 T5。至于 Imagen 的這個(gè)命名,其實(shí)是圖片 (image) +生成 (generate) 的混成詞。
圖片來源:google Research
雖然做的比 DALL·E 晚,同樣作為硅谷知名 AI 研究型公司的谷歌,還是非常不服 OpenAI 的,宣稱找人做了一堆同類模型的盲測(cè),結(jié)果是受試者更喜歡 Imagen 生成的結(jié)果,認(rèn)為其在“生成質(zhì)量”和“文字描述還原度”上都更勝一籌。
——當(dāng)然,究竟是 DALL·E 2 和 Imagen 誰的生成結(jié)果更好,還是一個(gè)很主觀的,見仁見智的事情。在技術(shù)實(shí)現(xiàn)上,這兩家其實(shí)大同小異,都是用了 Diffusion(擴(kuò)散)模型生成,然后再用 Super-Resolution(超分辨率) 技術(shù)來讓生成結(jié)果更加清晰。
圖片來源:Google Research
還有更多規(guī)模更小的新創(chuàng)公司也在做 AI 圖片生成和藝術(shù)創(chuàng)作這件事。
其中一家比較有意思的公司就是 Midjourney,其創(chuàng)始人是原知名動(dòng)作感應(yīng)技術(shù)公司 Leap Motion 創(chuàng)始人 David Holz;公司的投資人和顧問團(tuán)隊(duì)更是相當(dāng)強(qiáng)大,都是蘋果、特斯拉、AMD、GitHub 等知名公司的核心人物。
Midjourney 跟 OpenAI、谷歌的寫實(shí)方向背道而馳,而是在抽象、藝術(shù)性、獨(dú)特風(fēng)格之間尋求某種巧妙的結(jié)合點(diǎn),這也是這家公司和其模型比較特別之處。另外 Midjourney 開放模型技術(shù)的做法也很“年輕化”,不是發(fā)布 API 和文檔,而是把服務(wù)接口做到了聊天軟件 Discord 里。
說完這些比較知名的公司,再來看一家名不見經(jīng)傳,但是和 TikTok 一樣出手極快的美國公司:Stability AI。
這家公司總部位于硅谷 Los Altos,在上周剛剛發(fā)布了一個(gè)可以免費(fèi)使用的 AI 圖片生成產(chǎn)品 Stable Diffusion。
圖片來源:Stability AI
Stable Diffusion 和前面介紹的幾個(gè)寫實(shí)派模型沒有太大不同。但是和產(chǎn)品、公司名稱里的“穩(wěn)定”正相反,這個(gè)模型在有害/爭(zhēng)議字段的處理上,可以說完全沒有任何作為。而又因?yàn)楫a(chǎn)品是完全免費(fèi)提供給公眾的,已經(jīng)有很多用戶用它制作 deepfake、暴力、恐怖主義、虛假新聞圖片等有害的內(nèi)容了……
最近大半年,AI 圖片生成已經(jīng)成為了一個(gè)名副其實(shí)的科技行業(yè)“熱詞”,只是沒想到,Open AI 和谷歌做了這么多年,卻被 TikTok 給悄無聲息地跑贏了。接下來,應(yīng)該會(huì)有更多的科技公司也參與其中,不少全民應(yīng)用背后的大廠估計(jì)又要忙活著把這項(xiàng)技術(shù)加到產(chǎn)品中了。
*注:封面圖來自于 TikTok,版權(quán)屬于原作者。如果不同意使用,請(qǐng)盡快聯(lián)系我們,我們會(huì)立即刪除。