西風 明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
AI工具秒做電商圖,一張只要一塊錢,成本直降99%!
隨便上傳一張照片,服飾不變,改頭換臉:
足不出戶即可配入各種背景,光影也能自然呈現:
小哥哥也有哦,還能自動補全擴展,任意改變圖片大小:
哪怕沒有真人圖,只有人臺照,也可展示上身效果:
甚至可以跨次元,把2次元紙片人的服裝變成3D真實風格。
這效果,乍一看很難辨別出是AI生成的啊。
如此一來,商家豈不是無需進行大量線下拍攝,省去換景別甚至外出拍圖的步驟,在電腦前即可做出豐富商品圖?
啥情況,電商模特這碗飯也要端不住了?
1分鐘做一張AI模特圖
如上提到的AI工具,名叫小K電商圖。
現在能提供4種電商圖生成功能:
- 給人臺圖補充真人模特
- 給真人模特換臉
- 給假發圖補充真人模特
- 給商品圖生成新背景
各種效果只需3步即可搞定,界面非常通俗易懂,操作流程大約在1分鐘左右。
比如選一張迪麗熱巴的照片,想更換人臉和表情,并且把背景替換成T臺,同時調整圖片尺寸。
需要先上傳圖像,系統會自動對圖像進行分割,選中想要保留的區域。
(如果服裝被頭發遮住可以同時保留頭發))
然后再設定想改變的元素,包括模特人臉風格、面部表情、背景等。
同時可以勾選一些特殊處理,補充服裝。
在這里,我們設定將原圖人像換成一位歐美模特、露齒笑、背景為T臺,并擴大了原圖尺寸。
可以看到生成結果中,很好保留了服裝和發型,但是其他元素都進行了相應調整。
而且對于發絲、光影都重新做了處理。背景也是AI重新完全生成的,區別于傳統PS摳圖。
一次生成會給出4張圖,方便挑選。
生成圖片背景的細節也可以處理得很好,比如雪景背景下,人物鞋子上都會被加上雪花。
在小K電商圖里,提供的AI模特類型比較多,不同地區、不同年齡都有覆蓋。
如果對現有模特不滿意,還可自由定制專屬模特,定制化模式有兩種:
- 用戶沒有模特,再提供幾個非公用有一定稀缺度的AI的模特;
- 用戶本就有模特,根據模特本身的樣貌定制。
除了AI模特、真人,二次元人物也可定制。
可替換的AI背景也很豐富。
據介紹,自定義背景功能、物品圖生成也即將推出。
所以,小K電商圖是如何實現這些效果的呢?
結合自研姿態算法
小K電商圖的底層技術可以簡單劃分為兩部分:生成+控制。
生成能力來自開源的Stable Diffusion。
控制方面則引入了小K自研的一系列算法,其中以姿態算法最為突出。
要知道,AI畫畫很長一段時間都無法畫好人手,在可控性上表現也比較差,這是因為擴散模型自身的特性使然。
后續隨著Contro.NET出現,通過給預訓練擴散模型增加一個額外的輸入,可以控制Stable Diffusion生成的細節。
這里可以是各種類型的輸入,包括草圖、邊緣圖像、語義分割圖像、人體關鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等。
由此,Stable Diffusion加上人體姿態估計算法(Openpose)可以很好控制人物動作生成。
小K電商圖的技術邏輯也是如此,不過他們采用了性能更加穩定的自研算法。
基于這套算法,小K的另一款視頻動捕產品——小K直播姬已經實現了通過普通RGB攝像頭、無需任何傳感器,即可實現3D動捕。
并且在手指細節的處理上表現很好。
因此,對于沒有四肢的人臺圖,小K電商圖可以做到直接識別。自動補充頭部、畫手能力提升也得益于該算法。
在解決了姿勢可控后,還需要解決面部可控。在這方面小K電商圖引入了LoRA。
LoRA本來是微軟研究團隊早在2021年提出的一項大語言模型微調的技術,可以大大提高微調訓練速度。
去年底,韓國科學技術院KAIST一位研究員@cloneofsimo與HuggingFace合作,將此方法擴展到Stable Diffusion上。
不僅實現了單塊11GB顯存的RTX2080Ti實現模型完整微調,同時原始模型權重凍結,新訓練出來的權重可以保存為3MB大小的單個文件發布。
這項技術被AI繪畫愛好者用來讓模型固定生成一個物體,最流行的就是固定一個人物形象。
在CivitAI社區里,每個微調好的權重就叫做一個Lora,就相當于一個人物模版,所有人都可以方便下載使用。
最后在背景方面,為了滿足電商場景下的需求,小K也做了更強的控制。
比如一些情況下,用戶其實只想替換模特人臉,其他都不做改變。
那么在這種情況下,AI還是會重新繪制一張新圖,不過會保留95%的相似度。
如果用戶想替換背景,算法則會在光影等細節上做更多補充,力求圖像自然、逼真。
所以,是誰帶來了小K電商圖?
從游戲到AI再到AIGC
小K電商圖的打造者名叫云舶科技,主打AIGC虛擬內容創作生產。
團隊成立于2017年,由出身游戲行業的梅嵩和陳敏聯合創立。
其中,梅嵩是原藍港互動SVP,《王者之劍》系列手游制作人,有超過10年游戲制作經驗;陳敏是原藍港互動CTO,核心團隊有著近20年的研發經驗。
憑借對游戲動畫市場的了解,他們從創業初期就選擇專注于AI視頻動捕技術。
經過4年研發,基于云舶自研算法的3D虛擬直播產品小K直播姬在2021年推出,免費提供給廣大VTuber使用。
如今,小K直播姬服務主播用戶超40萬,并且是B站、酷狗音樂等平臺的官方虛擬直播工具。
成立6年以來,云舶科技都和AI、虛擬內容、游戲動畫等領域保持高度關聯。
去年AI畫畫大火后,云舶也快速跟進。結合自身特長和市場調研,最后確定同時推進兩條路線:其一是AI游戲圖領域,另一個就是AI電商圖。
兩條路線的底層邏輯相同:降本增效。
創始人兼CEO梅嵩介紹,電商行業的傳統出圖方式是線下實景拍攝,需要向模特、攝影、場地等付費,平均價格約為一張圖100元。但如果用AI生成,這個數字能降到1塊錢。
為什么先推進AI電商圖這條線?
梅嵩給出了兩個判斷:
一方面,從市場角度來看,電商行業每年可能會有幾億個新貨品,每個貨品都要有自己的產品圖。這意味著電商市場每年會需要幾百億張產品圖,市場需求巨大;
另一方面,從技術角度來看,電商行業對AI制圖的需求更強調可控,對創造性要求不高,這使得技術開發更加可控。
所以,小K電商圖更早面世。
梅嵩也坦言,最開始開發時,模型生成的效果并不理想,研發團隊一直在反復做調試。在今年年初時,他們也在思考,是不是引入姿態算法能讓效果更可控?
結果剛好ControlNet出來了,幫我們驗證了想法,也省去了一些試錯環節。
目前小K電商圖已正式發布,并已有幾十家電商行業用戶進行內測,1.2版本也即將上線。
梅嵩透露,之所以會選擇這時發布產品,一方面是想要搶占市場先機,目前業內類似產品還相對少見;另一方面也是團隊對自身的迭代速度有信心。
之前我們發布小K直播姬就是遵循這樣的邏輯,后面實現了幾乎周更產品迭代,整個產品的功能也越來越豐富。
如今,研發團隊也在加速推進2.0版本,新一代產品希望能實現對AI模特姿勢靈活調整,并將平鋪服裝直接轉換成上身效果。
與此同時,云舶科技也在籌措最新一輪融資。
作為一家初創公司,云舶的融資步調其實有點特別——首輪天使輪融資是在公司成立三年后才完成的。
原因在于云舶選擇在成立后,首要搞定基礎研發。
梅嵩非常坦誠地表示,創始團隊出身游戲行業,最開始對AI的了解并不多,所以他們用更多耐心、時間和精力來死磕研發,終于在2020年拿出了滿意的demo。
跑通底層技術后,從2020到2021,云舶的腳步明顯加快,先后完成A輪、A+輪融資,金額都為數百萬美元。2021年年底,讓云舶開始展露頭角的小K直播姬也順利上線。
在這事上,梅嵩自己也調侃:
哪有創業公司做一個產品要做4年的?
給我們投天使輪的BV百度風投當時還說:別的不談,你們的堅持還是非常值得鼓勵的。
如今隨著AIGC浪潮到來,AI在輔助創作、提高工作效率等方面都進一步打開空間,應用層的爆發已初見端倪。
量子位智庫預測,到2030年我國AIGC市場規模將達到萬億級別。
2025年預計會成為產業第一次規模爆發點,年復合增長率有質變性提升。在這之后2年,產業將迎來應用爆發期,大量應用層玩家涌入。
所以回到當下來看,不僅是大模型公司值得關注,既懂技術又懂應用內容的行業玩家,也會成為AIGC應用指數級爆發的主力軍,迎來屬于自己的新一輪增長期。
— 完—