【ITBEAR科技資訊】6月28日消息,近日,來自馬克斯?普朗克計算機科學研究所、MIT CSAIL和谷歌的研究者們開源了一種名為DragGAN的新方法,用于控制生成對抗網絡(GAN)。這一方法讓用戶能夠通過簡單的點擊和拖拽,快速改變圖像的各個屬性,如汽車的尺寸和人物的表情。
DragGAN被視為一種直觀的圖像編輯工具,其使用方法簡單明了。用戶只需點擊圖像中的像素點并調整方向,便能夠輕松地改變照片中主體的位置、姿態、表情、大小和角度等。相較于基于文本生成圖像的人工智能技術,DragGAN的優勢在于用戶可以在生成圖像后對其進行實時編輯,而無需重新生成整個圖像,從而更加靈活地獲得滿意的結果。
據ITBEAR科技資訊了解,研究論文中展示了DragGAN的一些演示案例,其中包括增加山峰的高度、改變模特的姿勢和衣服的長度和形狀、張開或閉合獅子的嘴巴,以及將一個人的表情從平淡變成微笑等。這些案例展示了DragGAN在圖像編輯方面的潛力,并為未來的研究和應用開辟了新的方向。
研究人員表示,DragGAN在基于GAN的操作中表現優異,超過了目前的最佳方法,并且具有廣闊的應用前景。他們還計劃在未來幾個月將基于點的編輯擴展到3D生成模型,進一步提升編輯圖像的自由度和效果。
值得注意的是,盡管DragGAN的源代碼已經開源,但使用該代碼有一些限制。該項目及其衍生作品只能用于非商業用途,僅供研究和評估目的使用。然而,英偉達公司及其附屬機構可以在商業上使用該項目和其衍生作品,這為進一步推動技術的發展和應用提供了機會。
DragGAN的開源發布將進一步促進圖像編輯技術的發展,為用戶提供更多靈活和可定制的編輯選擇。隨著基于點的編輯技術的不斷擴展,我們有理由期待在不久的將來能夠更加方便地實現各種圖像編輯任務。