(ChinaZ.com)3月5日 消息:Stability AI 最近發布了他們最強的圖片生成模型 Stable Diffusion3(SD3) 的技術報告,披露了 SD3的更多細節。據 Stability AI 所說,SD3在排版質量、美學質量和提示詞理解上超過了目前所有的開源模型和商業模型,是目前最強的圖片生成模型。
技術報告要點如下:
根據人類偏好評估,SD3在排版質量和對提示的理解程度上,均優于目前最先進的文本生成圖像系統,例如 DALL·E3、Midjourney v6和 Ideogram v1。
報告提出了新的多模態擴散 Transformer (Multimodal Diffusion Transformer, 簡稱 MMDiT) 架構,其使用獨立的權重集分別表示圖像和語言。與 SD3的先前版本相比,該架構改善了系統對文本的理解能力和拼寫能力。
SD38B 大小的模型可以在 GTX409024G 顯存上運行。此外,SD3將發布多個參數規模不等的模型方便在消費級硬件上運行,參數規模從800M 到8B。
SD3架構以 Diffusion Transformer (簡稱"DiT",參見 Peebles & Xie,2023)為基礎。鑒于文本嵌入和圖像嵌入在概念上存在較大差異,他們為這兩種模態使用了獨立的權重集。通過這種方法,信息得以在圖像 Token 和文本 Token 之間流動,從而提高了模型生成結果的整體理解力和排版質量。
SD3采用了矯正流 (Rectified Flow, 簡稱 RF) 的公式,在訓練過程中,數據和噪聲被連接在一條線性軌跡上。這導致了更直的推理路徑,從而可以使用更少的步驟進行采樣。
他們還進行了擴展矯正流 Transformer 模型的研究,使用重新加權的 RF 公式和 MMDiT 主干網絡,訓練了一系列模型,其規模從15個 Transformer 塊 (4.5億參數) 到38個塊 (80億參數) 不等。
SD3還引入了靈活的文本編碼器,通過在推理階段移除內存密集型的 T5文本編碼器(參數量高達47億),SD3的內存占用可以大幅降低,而性能損失卻很小。
總的來說,Stability AI 的這一技術報告揭示了 SD3的強大功能和細節,顯示出其在圖片生成領域的領先地位。
詳細內容點此查看:https://stability.ai/news/stable-diffusion-3-research-paper