21日,周四凌晨,AI target=_blank class=infotextkey>OpenAI在官網(wǎng)宣布將在今年十月份通過API向ChatGPT Plus和企業(yè)版用戶提供全新文生圖大模型DALL-E 3,ChatGPT也將集成在其中,彼此加持下將開啟久違的多模態(tài)輸出模式,用戶通過文本就能直接在ChatGPT中生成各種類型圖片。官網(wǎng)鏈接:https://openai.com/dall-e-3
根據(jù)OpenAI官方的說法,DALL-E 3“比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié),讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準(zhǔn)確的圖像”。這里舉個(gè)網(wǎng)友分享的例子,提示詞(prompt)都是“一幅描繪籃球運(yùn)動(dòng)員扣籃的油畫,并伴以爆炸的星云”,來(lái)對(duì)比下前代的DALL-E 2(左)和現(xiàn)在DALL-E 3(右)的繪圖效果。
很明顯的能看出來(lái),DALL-E 3在細(xì)節(jié)、亮度、清晰度等方都進(jìn)步明顯,甚至人物的側(cè)臉還頗有NBA喬幫主--邁克爾·喬丹年輕時(shí)的感覺。除了炸裂的繪圖效果之外,此次 DALL-E 3 的最大看點(diǎn)莫過于和ChatGPT的集成,它原生構(gòu)建在ChatGPT之上,用ChatGPT來(lái)創(chuàng)建、拓展和優(yōu)化提示詞。這樣一來(lái),用戶無(wú)需在提示詞上花費(fèi)太多時(shí)間即可完成繪圖。具體說來(lái),因?yàn)榕cChatGPT的集成,用戶不必絞盡腦汁地想出詳細(xì)的提示詞來(lái)引導(dǎo)和完成繪圖了。只要輸入一個(gè)想法,ChatGPT會(huì)自動(dòng)為DALL-E 3生成詳細(xì)的prompt,匹配程度之高宛如量身定制,同時(shí)用戶也可以使用自己的提示詞。
通過這幾個(gè)實(shí)例,可以發(fā)現(xiàn)DALL-E 3在繪制寫實(shí)、二次元、平面、創(chuàng)意、朋克、3D等多種類型的圖片時(shí)的表現(xiàn)還是可圈可點(diǎn)的。
2021年1月5日,OpenAI公布了第一代DALL-E,通過120億參數(shù)的GPT-3來(lái)理解自然語(yǔ)言輸入并生成相應(yīng)的圖片,既可以生成現(xiàn)實(shí)的對(duì)象也能生成現(xiàn)實(shí)中不存在的對(duì)象,這也是它保留至今的特點(diǎn)。它的名字源于Pixar(皮克斯)2008年的動(dòng)畫電影,《機(jī)器人總動(dòng)員》中的主角WALL-E(瓦力),以及20世紀(jì)西班牙加泰羅尼亞著名畫家Salvador Dalí(薩爾瓦多·達(dá)利),是二者的混成詞。兩個(gè)月后,DALL-E的論文和代碼正式公開。
在DALL-E之前已有其他許多人工神經(jīng)網(wǎng)絡(luò)可以生成逼真圖像,而DALL-E的特點(diǎn)在于它能夠通過純文本描述生成類似的圖像。2021年與DALL-E同時(shí)公布的還有CLIP(Contrastive Language-Image Pre-training,對(duì)比式圖文預(yù)訓(xùn)練)大模型,這是一個(gè)獨(dú)立于DALL-E之外的并行大模型,主要用于理解輸出圖像并為其打分。DALL-E生成圖像后還有要由CLIP模型進(jìn)行篩選,以保證繪制圖像的質(zhì)量。
2022年4月,OpenAI宣布了新一代產(chǎn)品DALL-E 2,表示它可以從文本描述中生成照片級(jí)的圖像,是一個(gè)“可以從文本描述中生成原創(chuàng)、逼真的圖像和藝術(shù)”的產(chǎn)品,另外還有一個(gè)配套的編輯器,允許對(duì)繪圖進(jìn)行簡(jiǎn)單修改。雖然DALL-E 2是新產(chǎn)品,但有時(shí)仍會(huì)犯一些人類不常犯的錯(cuò)誤,比如“一本黃色的書與一個(gè)紅色的花瓶”和“一本紅色的書與一個(gè)黃色的花瓶”,面對(duì)這種繞口令似的提示詞時(shí)DALL-E 2就非常容易混淆。
時(shí)隔一年半左右,DALL-E 3即將面世,雖然目前仍處于研究預(yù)覽版本。OpenAI的想法是在十月首先向ChatGPT Plus會(huì)員和ChatGPT企業(yè)版用戶發(fā)布,隨后再向研究實(shí)驗(yàn)機(jī)構(gòu)及其API服務(wù)發(fā)布。不過,OpenAI并未透露何時(shí)或者是否計(jì)劃發(fā)布免費(fèi)的公開版本,DALL-E 3背后的技術(shù)細(xì)節(jié)和相關(guān)論文可能也不會(huì)公開。
自消息公布以來(lái),關(guān)于DALL-E 3與Midjourney孰優(yōu)孰劣的話題迅速就引起了各界的爭(zhēng)論。X(之前的推特)用戶@MattGarciaEth已經(jīng)將二者生成的圖片進(jìn)行了很多比較。具體結(jié)果也是見仁見智,此處不予置評(píng)。
提示詞“一個(gè)鱷梨坐在治療師的椅子上,說‘我只是覺得內(nèi)心很空虛’,中間有一個(gè)坑大小的洞。”
提示詞“一顆由半透明玻璃制成的人心,矗立在驚濤駭浪中的基座上。”
OpenAI稱在DALL-E 3的開發(fā)上投入了大量精力,包括強(qiáng)力的安全措施以防止生成有害內(nèi)容。OpenAI表示通過與外部的“紅隊(duì)”成員(一個(gè)系統(tǒng)測(cè)試團(tuán)隊(duì),用故意試圖破壞的辦法測(cè)試系統(tǒng)的安全性)合作,同時(shí)加入了輸入分類器的協(xié)作,這是一種訓(xùn)練大模型忽略某些單詞以避免顯式或暴力提示詞的方法。此外,DALL-E 3也無(wú)法生成公眾人物的圖像,以及在世藝術(shù)家風(fēng)格的圖像,這一點(diǎn)是相比前代很大的不同。
過去曾介紹過,有藝術(shù)家社區(qū)曾起訴Stability AI和Midjourney,以及藝術(shù)網(wǎng)站DeviantArt,指控使用他們擁有版權(quán)的作品來(lái)訓(xùn)練文生圖大模型。前不久OpenAI也差點(diǎn)面臨類似的麻煩,此次將允許藝術(shù)家將其作品從未來(lái)版本的文生圖大模型中刪除,不用于訓(xùn)練。創(chuàng)作者可以提交一張他們擁有版權(quán)的圖片,并在網(wǎng)站上填寫表格要求將其移除。這樣,未來(lái)的DALL-E 3上線時(shí)就可以屏蔽與藝術(shù)家的圖像和風(fēng)格相似的結(jié)果。