要點:
通過利用預訓練的文本到圖像擴散模型作為先驗,提出了Diffusion Models as Prior(DMP)管道,用于各種像素級語義預測任務。
通過在確定性預測任務和隨機文本到圖像模型之間重新構建擴散過程,通過一系列插值建立輸入RGB圖像和輸出預測分布之間的確定性映射。
通過使用低秩適應來微調預訓練模型,保持了泛化性能。在包括3D屬性估計、語義分割和內在圖像分解在內的五個任務上的廣泛實驗證明了DMP的有效性。
(ChinaZ.com)12月7日 消息:Diffusion Models as Prior (DMP)是一種新的方法,它在AI生成的圖像中提高了語義預測的準確性。該創新性方法巧妙地將預先訓練的文本到圖像模型應用于各種任務,例如3D屬性估計和語義分割,在有限的訓練數據下表現優于現有技術。
項目地址:https://shinying.github.io/dmp/
為了克服確定性任務和隨機文本到圖像模型之間的不一致性,研究者重新構建了擴散過程,通過插值建立了輸入圖像和輸出預測分布之間的確定性映射。為了保持泛化性能,采用了低秩適應來微調預訓練模型。實驗證明,DMP在包括3D屬性估計、語義分割和內在圖像分解在內的多個像素級語義預測任務上表現出色,即使在有限領域訓練數據的情況下,也能在任意圖像上產生準確的估計,超過了現有的先進算法。
通過對10,000張臥室圖像的訓練,作者評估了模型在多樣場景和任意圖像上的域外性能,特別在臥室圖像的各種風格上進行了分割評估,DMP在處理其他預訓練方案無法處理的圖像上表現出忠實的估計能力。
總體而言,這項研究為像素級語義預測任務引入了一種創新的先驗方法,為解決領域差異問題提供了新的思路。