智東西
作者 | 香草
編輯 | 李水青
智東西9月21日消息,今天凌晨,AI target=_blank class=infotextkey>OpenAI宣布其文生圖工具DALL·E即將升級(jí)至DALL·E 3,并將原生集成至ChatGPT中。
相比去年發(fā)布的DALL·E 2,在提示詞相同的情況下,DALL·E 3對(duì)文字的理解程度及生成的圖像質(zhì)量顯著提升。時(shí)常被詬病的“無法在圖像上生成文字”的問題,也在這次升級(jí)中得到了解決。
▲DALL·E 3(右)和DALL·E 2(左)生成圖像效果對(duì)比圖,提示詞為:在暴風(fēng)雨的大海中,一個(gè)半透明玻璃制成的人類心臟矗立在一個(gè)基座上。陽光穿透云層,照亮了心臟,揭示了一個(gè)微小的宇宙。“尋找你內(nèi)心的宇宙”這句話在地平線上用粗體字蝕刻著。(圖源:OpenAI、Sambhav Gupta)
而DALL·E 3與ChatGPT的結(jié)合,更是產(chǎn)生了奇妙的化學(xué)反應(yīng)。用戶不再需要學(xué)習(xí)如何使用合適的提示詞來描述自己想要的圖像,因?yàn)镃hatGPT可以直接理解自然語言,幫你完成這一切。
▲在ChatGPT中使用DALL·E 3直接生成圖像(圖源:OpenAI官網(wǎng))
升級(jí)版的DALL·E 3將于10月首先向ChatGPT Plus和企業(yè)版客戶開放,之后在秋季稍晚些將提供API接口并面向公眾開放。
此外,OpenAI特別強(qiáng)調(diào)DALL·E 3已采取多方面安全措施,包括暴力內(nèi)容限制、拒絕生成含公眾人物圖像、拒絕模仿在世藝術(shù)家風(fēng)格等,且允許創(chuàng)作者提交刪除自己圖像的申請(qǐng)。
那么DALL·E此次升級(jí)究竟實(shí)現(xiàn)了怎樣的效果?和ChatGPT的集成又將擦出什么樣的火花?OpenAI通過一段視頻演示以及多張圖像示例,向我們生動(dòng)地展示了DALL·E 3的強(qiáng)大之處。
一、原生集成于ChatGPT,DALL·E 3可以直接“講故事”了
DALL·E此次升級(jí),最大的亮點(diǎn)無疑是與ChatGPT的原生集成。OpenAI稱,現(xiàn)在的文生圖系統(tǒng)大多將重點(diǎn)放在生成圖像的質(zhì)量和水準(zhǔn)上,而忽略了文字和描述的重要性,這使得用戶不得不學(xué)習(xí)復(fù)雜的提示詞工程。
而DALL·E 3通過集成ChatGPT,使文字生成圖像這一過程中的“文字”部分實(shí)現(xiàn)了質(zhì)的飛躍。
過去,當(dāng)用戶使用DALL·E 2、Midjourney等文生圖AI工具時(shí),通常的做法是:首先通過ChatGPT等聊天機(jī)器人,用簡單的提示詞生成豐富的圖像描述文本;然后再進(jìn)入文生圖軟件,用圖像描述文本生成圖片。如果生成效果不佳,就需要反復(fù)操作多次,步驟十分繁瑣。ChatGPT+DALL·E 3的組合則直接省去了中間步驟,一步到位。
OpenAI提供了一個(gè)視頻來展示DALL·E 3的使用效果。這是一個(gè)家長為5歲孩子將想象帶到現(xiàn)實(shí)中的故事。
當(dāng)家長詢問:“我家5歲的寶寶總是提到一只‘超級(jí)向日葵刺猬’——它會(huì)長什么樣子?”
ChatGPT生成了四段描述該刺猬的文字,隨后根據(jù)文字生成了相應(yīng)的圖像。
家長選擇了其中一張圖像,追問道:“我的女兒說這只刺猬名字叫Larry,可以提供更多它的圖像嗎?”
ChatGPT此時(shí)根據(jù)用戶選擇的刺猬形象,生成了更多不同畫風(fēng)的圖像。
隨后,家長說想看看Larry的房子,ChatGPT便生成了一張Larry在房門口檢查信箱的畫面。
值得注意的是,他的信箱上甚至寫著自己的名字“LARRY”。這意味著DALL·E 3實(shí)現(xiàn)了在圖像上寫字的功能。
結(jié)合ChatGPT的文字生成功能,這只小刺猬還可以擁有自己的“人設(shè)”。
當(dāng)家長追問:“是什么讓他如此‘了不起’?”ChatGPT回答,是因?yàn)樗兄蛉湛ò曜鳛?ldquo;刺”,并且很善良。
家長繼續(xù)追問,他的善良是如何體現(xiàn)的?ChatGPT便生成了一幅漂亮的插畫,畫面上,Larry和蝴蝶、小鹿以及其他的小刺猬伙伴們一起在草叢上玩耍。
此外,ChatGPT在畫風(fēng)遷移方面也完成得很好。可以生成不同風(fēng)格的Larry,比如貼紙風(fēng):
最后,當(dāng)家長提出是否可以基于這些內(nèi)容講一個(gè)睡前故事,ChatGPT便生成了一個(gè)名為“了不起的向日葵刺猬Larry”的故事。
當(dāng)然,ChatGPT也可以繼續(xù)為自己講的這個(gè)故事創(chuàng)作插圖。
不得不說,ChatGPT和DALL·E的結(jié)合可以實(shí)現(xiàn)1+1>2的效果。比起之前提供多個(gè)獨(dú)立、專業(yè)提示詞的生成方式,現(xiàn)在的DALL·E 3更像是以講故事、聊天的方式,完成了圖像的生成和二次創(chuàng)作。
二、相同提示下,DALL·E 3生成圖像質(zhì)量顯著改進(jìn)
DALL·E 3和ChatGPT的集成之所以能夠產(chǎn)生優(yōu)秀的“連招”效果,離不開DALL·E 3模型本身的性能提升。
DALL·E 3在圖像生成方面比DALL·E 2改進(jìn)了很多。OpenAI提供了一個(gè)例子,對(duì)于同樣的提示詞“一幅表現(xiàn)籃球運(yùn)動(dòng)員扣籃的油畫,描繪成星云的爆炸”,同時(shí)使用DALL·E 2和DALL·E 3生成圖像并進(jìn)行對(duì)比。
可以看出,DALL·E 3對(duì)“扣籃”這一動(dòng)作的描繪更加準(zhǔn)確,對(duì)“星云爆炸”這一風(fēng)格的遷移也更加相似。相比之下,DALL·E 2描繪的圖像手繪質(zhì)感更強(qiáng)烈,對(duì)提示詞的表現(xiàn)沒有那么貼近。
▲DALL·E 2(左)與DALL·E 3(右)生成圖像對(duì)比(圖源:OpenAI)
OpenAI在旗下社交媒體Instagram上分享了多張由DALL·E 3生成的圖像,并分享了用于生成這些圖像所使用的文字和描述。
比如下圖,所使用的提示詞為:一個(gè)牛油果坐在治療師的椅子上,說“我只是覺得內(nèi)心很空虛”,它的身上有一個(gè)坑大小的洞。治療師是一個(gè)勺子,正在潦草地記著筆記。
▲DALL·E 3生成的插畫(圖源:OpenAI)
一位AI愛好者Sambhav Gupta在其社交媒體X上分享了他利用OpenAI提供的提示詞在DALL·E 2中生成的圖像。可以明顯看出,DALL·E 2對(duì)于這種自然語言提示詞的理解差了很多,也無法生成準(zhǔn)確的文字,看起來更像是亂碼。
▲Sambhav Gupta使用DALL·E 2生成的圖像
Gupta嘗試了OpenAI公開分享的9張圖像的提示詞。可以看出,無論是從準(zhǔn)確性上,還是畫面的精致程度上,DALL·E 3比起DALL·E 2都有較大的提升。
▲Sambhav Gupta使用DALL·E 2生成的圖像與DALL·E 3生成圖像對(duì)比
DALL·E 2于去年4月發(fā)布,并于同年7月面向公眾開放。時(shí)隔一年多,OpenAI宣布新版DALL·E將于10月首先向ChatGPT Plus用戶和企業(yè)版用戶發(fā)布,隨后在秋季提供API接口并面向公眾開放。
三、注重安全、版權(quán)保護(hù),創(chuàng)作者可提請(qǐng)刪除作品
9月20日,OpenAI宣布面向全球公開招募“紅隊(duì)網(wǎng)絡(luò)”,邀請(qǐng)有興趣提高OpenAI模型安全性的領(lǐng)域?qū)<医M成一個(gè)社區(qū),幫助評(píng)估和抵御風(fēng)險(xiǎn)提供信息。
此前,OpenAI曾多次被起訴侵權(quán),指出其大模型訓(xùn)練未經(jīng)允許使用他人的作品。也許是為了規(guī)避類似的情況,此次更新時(shí),OpenAI特別強(qiáng)調(diào)了安全性和版權(quán)問題。
OpenAI聲稱,團(tuán)隊(duì)已采取相應(yīng)的措施來限制DALL·E 3生成含有暴力、成人、仇恨等違規(guī)內(nèi)容的能力。此外,他們與紅隊(duì)網(wǎng)絡(luò)合作,提高了風(fēng)險(xiǎn)領(lǐng)域的安全性,拒絕生成包含公眾人物的內(nèi)容。
在圖像侵權(quán)方面,OpenAI稱DALL·E 3將拒絕要求模仿在世藝術(shù)家的風(fēng)格,且創(chuàng)作者們可以通過填寫表單,要求OpenAI將他們的作品從模型訓(xùn)練中刪除。
▲OpenAI為創(chuàng)作者提供的申請(qǐng)表單(圖源:OpenAI官網(wǎng))
和DALL·E 2一樣,用戶使用DALL·E 3創(chuàng)建的圖像可自由使用,用戶對(duì)圖像擁有使用權(quán)、商用權(quán)等。
此外,在最近備受關(guān)注的數(shù)字水印方面,OpenAI稱正在研究識(shí)別AI生成圖像的最佳方法。他們正在測試一種新的內(nèi)部工具,用于識(shí)別圖像是否由DALL·E 3生成,并且希望利用這一工具可以更好地了解圖像的生成方式。該工具相關(guān)的信息也將盡快公布。
結(jié)語:DALL·E 3+ChatGPT,重新定義AI繪畫方式
今天凌晨,OpenAI宣布將在10月開始陸續(xù)向ChatGPT Plus版、企業(yè)版等原生集成升級(jí)后的DALL·E 3。從目前公開的資料來看,DALL·E 3將會(huì)是一次巨大的變革,不僅通過與ChatGPT的結(jié)合顛覆了文字描述的方式,在生成圖像的質(zhì)量上也實(shí)現(xiàn)了顯著的進(jìn)步。
盡管OpenAI此次更新特別強(qiáng)調(diào)了安全及版權(quán)相關(guān)的問題,但在AI繪畫領(lǐng)域,相關(guān)的爭議仍備受關(guān)注。此外,AI繪畫工具對(duì)于藝術(shù)創(chuàng)作者而言究竟是輔助還是威脅,創(chuàng)作者是否會(huì)因此失業(yè)等問題,也值得企業(yè)和社會(huì)思考和反思。
無論如何,DALL·E 3的此次更新勢必會(huì)引發(fā)大范圍的討論和爭議,甚至可能直接重新定義AI繪畫的方式。未來,AI繪畫領(lǐng)域?qū)⑷绾伟l(fā)展,是我們共同關(guān)心的問題。