三大頂流生成式工具,哪個更好用?
文|Tri 編輯| VickyXiao
2023年最火的關鍵詞,大概就是AI了。
從橫空出世的ChatGPT,到風靡全網(wǎng)的Midjourney,再到全球AI大模型混戰(zhàn),不到一年時間,AIGC持續(xù)大爆發(fā),攪動著世界風云。
不論國內(nèi)外,大家仿佛都找到了奔向“新世界”的船票,要么在研發(fā)AI,要么在業(yè)務+AI。可以說,AI成為了當下最確定的確定性,引領大眾走向下一個AIGC時代,實現(xiàn)新的生產(chǎn)力躍遷。國內(nèi)外現(xiàn)在出了很多關于AI的一些工具,但其實都是通過Midjourney(MJ)、Stable Diffusion(SD)與DALL-E三個主流算法延伸而來,DALL-E已升級至DALL-E2。
今天我們就來一起探究一下,這三個主流算法有什么優(yōu)缺點和區(qū)別?
三大“頂流”背景介紹
Midjourney是目前搭載在Discord平臺的軟件,由美國一家工作室開發(fā)并于2022年3月首次亮相,短短一年的時間MJ便更新迭代至V5版本,并憑借它出圖的藝術性迅速火出圈。這些爆火在社交網(wǎng)絡的生成圖,都是通過MJ生成而來。憑借驚人的渲染質(zhì)量與完善的商業(yè)化模式成功吸引來大量付費用戶,實現(xiàn)年收入一億美元。
Stable Diffusion是由英國創(chuàng)業(yè)公司Stability AI與多個學術研究者和非營利組織合作開發(fā)的,可以免費使用,目前的SD的源代碼和模型都已經(jīng)開源,可以在mac端pc端甚至移動設備端本地部署(對設備配置要求比較高),可以diy模型,國內(nèi)外很多軟件工具,大多是以SD為底層邏輯開發(fā),其可控性和渲染能力也非常之強,現(xiàn)在也有很多設計師使用它去進行一些輔助工作。
DALL-E 2是由OpenAI團隊開發(fā)推出的,與Midjourney不同的是,簡單的指令下生成的圖片普遍偏向?qū)憣嶎悾珼ALL-E 2 在逼真圖像和簡潔提示方面是這三者中最好的。
表現(xiàn)能力
下面我們一起來看看他們的表現(xiàn)能力,在同樣關鍵詞的描述下,他們的圖像反饋如何?
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
DALL·E 2(左)、Midjourney(中)和 Stable Diffusion(右)
從上圖的對比中我們可以看到,DALL-E 2能夠很好地處理自然、人物的圖像,目前,通過使用 DALL-E 2 的API,可實現(xiàn) 3 種與圖像交互的方法:根據(jù)文本提示從頭開始創(chuàng)建圖像、根據(jù)新的文本提示創(chuàng)建現(xiàn)有圖像的編輯、創(chuàng)建現(xiàn)有圖像的變體。
Midjourney在所有嘗試中都具有豐富的色彩和逼真的圖像。其能夠根據(jù)用戶的提示生成圖像。Midjourney善于適應實際的藝術風格,創(chuàng)造出用戶想要的任何效果組合的圖像。它擅長環(huán)境效果,特別是幻想和科幻場景,看起來就像游戲的藝術效果。
而Stable Diffusion是一個開源的模型,人人都可以使用。它對當代藝術圖像有比較好的理解,可以產(chǎn)生充滿細節(jié)的藝術作品。只是對于普通用戶來說,使用難度較大。目前大家討論最熱的就是SD和MJ誰更勝一籌,于是我們又測試了一些圖像。
Midjourney(左)和 Stable Diffusion(右)
Midjourney(左)和 Stable Diffusion(右)
從卡通人物形象生成細節(jié)來看SD更勝一籌,同樣的關鍵詞生成,SD生成的五官更立體精致一些,Midjourney更具藝術特色一點。
Midjourney(左)和 Stable Diffusion(右)
在生成逼真插圖風格圖像時,兩者生成效果不分秋色,SD的最大優(yōu)勢是用戶可以通過模型的嵌入,LoRA或網(wǎng)絡重新混合,可以產(chǎn)出令人意想不到的效果。
Midjourney(左)和 Stable Diffusion(右)
Stable Diffusion 目前有超過一千種模型可供下載。可以使用LoRA模型、嵌入模型和超網(wǎng)絡進一步修改每個模型;Midjourney在模型方面是比較有限的。僅提供 v1 到 v5 模型,以及一些特殊模型,如 niji、test、testp 和 HD。還有一個附加參數(shù)可以讓圖像“風格化”。但總體來說和 Stable Diffusion 還是相形見絀。
使用指南
其實,這些 AI 圖像生成器都有自己的優(yōu)勢,根據(jù)這三個算法體驗,我們總結(jié)出一些突出點和區(qū)別,具體要如何選擇可根據(jù)你的自身需求來決定。
1、DALL-E2
此模型的界面簡單易懂,無需注冊第三方平臺即可輕松上手生成圖片,只需要訪問該網(wǎng)站并將您的關鍵詞文本輸入到生成框中即可創(chuàng)建圖像。
優(yōu)點:
l 便于使用
l 具有靈活性的創(chuàng)作能力
l無需第三方平臺
缺點:
l 簡單的圖像
l 準確度不高
l只能創(chuàng)建方形圖像
2、Midjourney
與 DALL-E 2 不同的是,您需要先創(chuàng)建一個 Discord 帳戶,必須輸入文字或圖片之類的命令來生成圖像。
優(yōu)點:
l 高質(zhì)量圖像
l 用戶可以自定義圖像尺寸比例
l可靈活控制圖像參數(shù)
缺點:
l 使用起來比較復雜
l 要求用戶注冊Discord
l快速時間用完后,圖像生成時間會急劇增加
3、Stable Diffusion
Stable Diffusion和DALL·E-2都是基于擴散模型,它可以根據(jù)輸入的文字描述詞(prompt)來繪制圖像。在Stable Diffusion上完成優(yōu)秀圖像的制作需要有正確的模型+準確的提示詞+參數(shù)調(diào)整+后期處理技術。
優(yōu)點:
l 可web操作和安裝開源模型到其他平臺
l 更多創(chuàng)作自由
l大量自定義圖像參數(shù)的控件
缺點:
l 需要專業(yè)且性能強的硬件設備
l 圖像質(zhì)量非常不穩(wěn)定,這取決于你使用的版本
l 學習困難度高,普通用戶很難駕馭
綜上所述,如果你有明確的目標產(chǎn)出,比如你是一名建筑類設計師,那么Stable Diffusion將更能滿足你的創(chuàng)作需求,因為它的可控性更強。而如果你沒有明確的創(chuàng)作控制目標,想做一些發(fā)散性思維的創(chuàng)意工作,那么Midjourney和DALL-E 2的便捷性與低門檻將是你的較佳選擇。