日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近日,CVPR 2022放榜,基于昇騰CANN的AI論文《Interactive Image Synthesis with Panoptic Layout Generation》強勢上榜。這為AI發(fā)燒友們開辟了一條新的圖像生成之路隨手選擇幾個類別的基礎元素,并做大小和位置的拖動,便能自動生成一副攝影作品,堪比專業(yè)攝影師!

CVPR全稱IEEE Conference on Computer Vision and Pattern Recognition,是計算機視覺領域三大頂會之一,并且是唯一一個年度學術會議。在快速更新迭代的計算機學科中,CVPR已然成為了計算機視覺領域的“頂流”。

本論文基于交互式的圖像生成,提出基于全景布局(Panoptic Layout)輔助圖像生成的方法,即PLGAN(Panoptic Layout Generation)算法,提高了交互場景下生成圖像的質量及其穩(wěn)定性。該論文在COCO-Stuff和VG兩個公開數據集和自行收集的Landscape風景數據集上,進行了實驗驗證并取得了很好的效果。目前已經在華為Atlas系列服務器上實現了該算法,其配備了昇騰AI處理器提供算力支持,并借助異構計算架構CANN(Compute Architecture for Neural Networks)充分釋放硬件澎湃算力,發(fā)揮極致AI性能。

下面我們來看下對比交互式圖像生成方法Grid2Im,本論文PLGAN算法的表現效果:

大多數交互式圖像生成方法,都采用生成圖像布局(Layout)為中間結果,來輔助最終的圖像合成(例如 Grid2Im [1])。為了解決交互場景下圖像生成質量穩(wěn)定性問題,我們從圖像布局(Layout)構建入手。通常的圖像布局(Layout)有逐像素填充的語義圖層(例如GauGAN),還有基于Bounding Box的實例圖像布局(Instance Layout)。

語義圖層在空間布局上逐像素對應生成的圖像,可以很好的控制需要合成的圖像,但其構建比較復雜,因此大多數多模態(tài)圖像生成和交互場景采用實例圖像布局(Instance Layout)。然而,實例圖像布局(Instance Layout)本質上是采用由不同物體的位置方框(Bounding Box)和形狀(Mask)組合而成的,不同物體的位置方框(Bounding Box)之間和形狀邊緣的不匹配,都會出現圖像布局填不滿的情況,在用戶交互的場景下尤其明顯,這使得以此為條件的條件生成模型,在最終生成圖像中出現偽影和噪聲,如圖1所示。因此構建一個可以解決此“區(qū)域缺失”問題的圖像布局(Layout),是我們所關注的重點。

Figure 1. Scene-to-image synthesis by Grid2Im [1] vs. PLGAN

針對上述問題,引入全景分割[3]的概念,提出了基于全景布局(Panoptic Layout)的圖像合成方法。在全景分割問題中[3],將物體類別分為了可數類(things)和不可數類(stuff),其中可數類(things)指有特定形狀的前景類別,不可數類(stuff)指沒有特定形狀的背景類別。因此引入此概念,將通常的實例布局(Instance Layout)構建過程中分為Instance分支和Stuff分支分別處理可數類(things)和不可數類(stuff),如下圖所示。

Figure 2. Overview of the PLGAN architecture

Instance分支采用通常的做法,先同時生成位置方框和形狀,然后將其組合成實例布局(Instance Layout)。對于Stuff分支則使用全新的做法,直接生成填充布局(Stuff Layout),由于此結果是直接由模型通過Softmax層得到,其在整個圖像空間上,不會有空缺部分,以此來解決“區(qū)域缺失”問題。因為對于不可數類別,其形狀也不是固定的,這種整體生成的方式對于類別識別來說,不會帶來很大的影響。分別生成的兩個布局,可以通過ISA-Norm層來聚合到一起,形成最后的布局(Layout)。從布局(Layout)到最終的圖像生成,我們采用SOTA模型CAL2I[2]方法,得到最終的合成圖像。

Figure 3. Illustration of Instance- and Stuff-Aware Normalization.

在實驗設計上,采用對公開數據集的標注信息做擾動的方式,模擬交互式場景下的輸入,在指標和視覺對比上,都得到了SOTA(state of the art)水平,尤其在輸入擾動的情況下,生成圖像的質量更加穩(wěn)定。

Figure 4. Visual comparison between sample images generated from perturbed BBoxes (Pert BBoxes) on the COCO-Stuff dataset

Figure 5. Visual comparison between instance layouts and panoptic layouts on the COCO-Stuff dataset

昇騰社區(qū)(hiascend.com同步上新基于該論文的AI試玩應用,小伙伴們在給定的畫布中,可以選擇任意元素,大海、沙灘、天空,隨心拼接拆合,然后通過華為Atlas 200 DK推理,可實時生成獨一無二的真實AI風景畫,掃描下方二維碼即刻體驗。

參考文獻

[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.

[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.

[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.

分享到:
標簽:全景 上榜 算法 生成 圖像 交互性 增強 論文
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰(zhàn)2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定