Stability AI發布SD3技術報告披露SD3更多細節-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

Stability AI發布SD3技術報告披露SD3更多細節

發布時間：2024-03-05 14:44:00 作者：網友整理

（ChinaZ.com）3月5日消息:Stability AI 最近發布了他們最強的圖片生成模型 Stable Diffusion3（SD3）的技術報告，披露了 SD3的更多細節。據 Stability AI 所說，SD3在排版質量、美學質量和提示詞理解上超過了目前所有的開源模型和商業模型，是目前最強的圖片生成模型。

技術報告要點如下:

根據人類偏好評估，SD3在排版質量和對提示的理解程度上，均優于目前最先進的文本生成圖像系統，例如 DALL·E3、Midjourney v6和 Ideogram v1。

報告提出了新的多模態擴散 Transformer （Multimodal Diffusion Transformer，簡稱 MMDiT）架構，其使用獨立的權重集分別表示圖像和語言。與 SD3的先前版本相比，該架構改善了系統對文本的理解能力和拼寫能力。

SD38B 大小的模型可以在 GTX409024G 顯存上運行。此外，SD3將發布多個參數規模不等的模型方便在消費級硬件上運行，參數規模從800M 到8B。

SD3架構以 Diffusion Transformer （簡稱"DiT"，參見 Peebles & Xie，2023）為基礎。鑒于文本嵌入和圖像嵌入在概念上存在較大差異，他們為這兩種模態使用了獨立的權重集。通過這種方法，信息得以在圖像 Token 和文本 Token 之間流動，從而提高了模型生成結果的整體理解力和排版質量。

SD3采用了矯正流（Rectified Flow，簡稱 RF）的公式，在訓練過程中，數據和噪聲被連接在一條線性軌跡上。這導致了更直的推理路徑，從而可以使用更少的步驟進行采樣。

他們還進行了擴展矯正流 Transformer 模型的研究，使用重新加權的 RF 公式和 MMDiT 主干網絡，訓練了一系列模型，其規模從15個 Transformer 塊（4.5億參數）到38個塊 (80億參數) 不等。

SD3還引入了靈活的文本編碼器，通過在推理階段移除內存密集型的 T5文本編碼器（參數量高達47億），SD3的內存占用可以大幅降低，而性能損失卻很小。

總的來說，Stability AI 的這一技術報告揭示了 SD3的強大功能和細節，顯示出其在圖片生成領域的領先地位。

詳細內容點此查看：https://stability.ai/news/stable-diffusion-3-research-paper

分享到：

標簽：StableDiffusion3 SD3 AI頭條