新版Midjourney太炸裂：AI繪畫再無Bug，“有圖有真相”時代徹底過去-魔扣目錄

　　進化版的AI繪圖工具創造出了一個平行世界。

　　文| 硅星人 Juny 編輯| VickyXiao

　　過去幾個月，以ChatGPT為首的聊天機器人攪得科技界滿城風雨，大家都忙著去跟各家的AI聊天，讓它們來寫郵件、寫代碼、寫詩。而當語言模型在大跨步向前進化時候，AIGC的另一個重要分支——繪圖，最近其實也完全沒閑著。

　　去年曾因拿下藝術比賽大獎而名噪一時的Midjourney，近期在AI生成圖片領域熱度可以說堪比OpenAI。MidjourneyV4版本去年年底幾乎跟ChatGPT同期上線，而就在上周GPT-4推出的時候，Midjourney也飛速推出了第五代版本，而這一次的更新堪稱“炸裂”。

　　一周以來，各種用Midjourney生成的神圖層出不窮，國足奪冠、特朗普插秧、教皇打碟、異形下鄉……只要你敢想AI就敢畫，而且隨便拿出一張都能做到以假亂真的程度。但可能有創作的偽照片過于真實，引起了太多爭議，太多新用戶涌入導致服務器不堪重負，本周二，Midjourney宣布關閉了其免費賬戶的使用通道。

　　不過，另外一方面，在人們瘋狂娛樂的同時，一些人也嘗試著把ChatGPT和Midjourney結合起來使用，一些由人類構思、AI主導和操作的“人機合作”作品也逐漸顯現出了商業化應用的輪廓。

　　|當圖片向照片進化：一個由AI創造的平行世界誕生

　　你有沒有想象過這樣的畫面：

　　在不久前落幕的卡塔爾世界杯上，整個綠茵球場變成了一片紅色的海洋。大家歡呼雀躍，全場掌聲雷動。

　　圖片來自小紅書博主，賬號：Ai船長

　　愛因斯坦沒有出現在實驗室里，而是梳著標志性的發型，在音樂節上狂歡。

　　圖片來自推特

　　馬斯克沒有在21世紀造火箭和電動汽車，而是穿越到了蘇聯工廠，真正當起了一名“鋼鐵俠”（工人）。

　　圖片來自推特

　　這樣的世界，你覺得怎么樣？

　　以上這些無比真實的照片，并不是由誰花了大量時間PS制作的，而是很多普通人通過動一動手指頭，打幾個關鍵字，就讓人工智能在十幾秒內所自動生成的。

　　造就這以假亂真世界的幕后推手是一個名為Midjourney的AI生成圖片工具。可以說，目前在AIGC繪圖領域，MidJourney是一個比OpenAI還神奇的存在。Midjourney沒有任何巨頭的重金支持，是一個自籌資金的獨立研究實驗室，它的發起人為曾兩次拒絕蘋果收購的Leap Motion公司的創始人David Holz，目前全職員工僅有11人。

　　但就是這么一個超小型團隊，卻是當前AI繪圖領域最炙手可熱的明星，甚至將OpenAI的DALL-E、Stable Diffusion、英偉達的GauGAN2等同類工具都甩在了身后。

　　|比肩GPT的更新速度，驚嘆和爭議相繼到來

　　Midjourney的迭代速度相較于OpenAI可以說是有過之而無不及。去年3月份第一版本首次上線，4月份便火速更新第二版本，接著7月份上線Open Beta V3版本首次向公眾開放，之后以其獨特的藝術性風格吸引了一些用戶。其中，最出圈的就是這張由普通人給出提示詞、AI負責創作，跟人類藝術家同臺比賽之后斬獲金獎的油畫。

　　之后Midjourney并沒有停下更新的腳步，11月又推出第四代版本添加了更多圖片風格，緊接著今年3月份，Midjourney V5版本登場。此次V5版本的更新之所以能引發大量關注，主要是因為它解決了一個技術難題和完成了一次跨越性的突破。

　　其中，技術難題指的是——畫手。

　　讓AI畫出逼真的人類手部特征是一個看起來簡單但卻出奇復雜的任務。首先，在 AI的訓練圖集中，手往往都不是圖片的重點，同時人們握手、牽手、鼓掌等不同狀態下手部形態各異，很難形成標準化的模版，這也就造成了AI學習難度的激增。

　　此外，即便對于傳統人類畫師來說，畫手也是最困難的地方之一。手的幾何形狀復雜，并沒有一套標準的線條或形狀，指關節上的皺紋和褶皺、手掌上的陰影等細節非常多，并且每個人的手都不一樣，是獨一無二的存在，并不能套用。

　　因此正確并精細化地畫手對于所有的AI工具來說都是一項困難的挑戰，在Midjourney的V5之前，行業內的AI繪畫工具都無法很好地完成。

　　Midjourney（左）、Stable Diffusion（右上）和DALL-E 2（右下）此前生成的奇怪人手，圖片來自buzzfeednews

　　但現在，Midjourney V5版本的已經完美解決了這個問題。

　　圖片來自推特

　　不僅告別了六指或畸形，還能結合人物特點畫出不同狀態和年齡畫出不同的手部細節，就連在光影中的手指紋路也能被完美呈現。

　　圖片來自于mpost

　　而除了攻克了畫手這個技術難題之外，Midjourney V5此次另一跨越性的突破在于——能夠生成照片級的圖片，并且還是攝影大師拍的那種。

　　在V5之前，Midjourney生成的圖片總體以卡通或超現實風格為主，但V5版本能夠支援包括真實、抽象、油畫等更廣泛的風格，圖像解像度比上個版本提高2 倍。而此次寫實風格的上線，可以說直接到了讓很多攝影師都要感嘆“攝影學不存在了”的地步。

　　比如，以“90年代大街上的模特”為主題，完美創造出真假難辨的照片。

　　圖片來自推特，賬號Nick St． Pierre

　　以“你好小朋友”為主題，用膠片質感完成童年重現。

　　圖片來自小紅書博主，賬號：逗比

　　以“發生颶風的新聞報道”為主題，無中生有地去還原一個災難現場等等。

　　圖片來自推特

　　從以上這些照片示例中可以看出，Midjourney的寫實圖片生成并不局限于一種固定的風格，而是會根據你描述場景和想要的風格來智能化的調整色調、像素、鏡頭語言等。最近Midjourney產出的很多圖片，甚至已經達到人的肉眼無法判別真偽的程度。

　　如果從技術的角度，Midjourney的進步無疑是讓人驚艷和贊嘆的。但可能也因為這些照片太過于真實和太多新用戶的涌入，本周二，Midjourney宣布關閉了其免費賬戶的使用通道。分析認為，此舉也是為了防止更多離譜的“照片”出現，從而擾亂現實世界和散布有害信息。

　　比如，此前真的就有媒體以把特朗普被捕的生成圖片當成了真實現場照片，從而造成了虛假新聞的出現和發酵。此外，Midjourney目前的關鍵詞審核機制并不嚴格，因此也存在產生大量有害照片的風險。Midjourney表示他們正在進一步加強對于AI生成內容的監管和審核。

　　圖片來自于The Verge

　　| ChatGPT+Midjourney強強聯合，AI作品走向商業化應用

　　目前，MidJourney仍然需要結合Discord使用，使用方法依然很簡單，通過輸入文字和一些參數要求描述即可。目前還支持用戶上傳自己的圖片，再根據圖片進行AI生成。

　　目前，一段完整Midjourney的“咒語”示例大概如下：

　　A man in futuristic armor with cyberpunk details（對想要呈現圖片的文字描述，可以添加更多細節），shot on Canon R6 with 50mm f1.2（風格描述，可以提出是什么設備拍攝的、或者是以哪位知名藝術家或攝影師的風格），--v 5（使用第五代版本技術）--ar 4：6 （畫幅比例，V5 版本中你可以自定義任何比例）--iw 1（輸入的參考圖片的權重占比）

　　雖然咒語的構成并不算復雜，但對于很多只有一個模糊想法的普通用戶來說，如何讓Midjourney來畫出自己腦中圖像仍然比較困難。于是，ChatGPT也登場了。

　　ChatGPT能發揮什么作用呢？首先你可以模糊地描述你的構想，讓ChatGPT拓展成一個充滿細節的畫面描述，接著讓它從這段文字描述中提取關鍵詞。然后，你可以將Midjourney的提示句的語法構成告訴ChatGPT，再通過幾次訓練讓Midjounery記住如何通過你輸入的關鍵詞來創建Midjourney的命令語法。

　　之后你只需要復制粘貼ChatGPT給你的指令粘貼到Midjourney的命令框里即可生成圖片，如果你不滿意還可以讓ChatGPT來繼續幫你修改完善關鍵詞。

　　目前，已經有很多人已經在嘗試將ChatGPT和Midjourney結合產出的結果，應用于自己的工作中。比如，做電商的不再需要去花大價錢去找攝影師、設計師，而是只需要把產品圖片和關鍵詞提供給AI工具，就能直接生成商業大片。