機器之心報道
編輯:小舟、蛋醬
開源是永遠的必殺技。
自從文本到圖像開源模型 Stable Diffusion 最初版本發布以來,DreamStudio 一直是 Stability AI 新模型和功能的主要界面。迄今,用戶已經借助 DreamStudio 創建了數百萬張圖像。
最近,DreamStudio 還升級到了 SDXL,實現了比其前身 Stable Diffusion 2.1 更詳細的圖像和構圖,并能用較短的 prompt 來創建描述性圖像。
就目前來說,DreamStudio 已經可以生成這樣的圖像,效果不輸 Midjourney 5.1:
盡管 DreamStudio 提供了幾乎沒有門檻的圖像生成方法,但它也有一個條件:付費。SDXL 版本的定價甚至還要更高一些。
而且,對一部分技術過關的開發者來說,他們也希望能夠在 DreamStudio 的基礎上進行一些應用擴展。
或許是聽到了網友們的心聲?剛剛,Stability AI 發布了 DreamStudio 的開源版本 ——StableStudio。
開源地址:https://Github.com/Stability-AI/StableStudio
「我們相信,擴大技術落地的最佳方式是通過開放、社區驅動的開發,而不是閉源產品的私有化迭代。」Stability AI 表示。
在該公司的規劃中,StableStudio 的目標是進行更廣泛的社區合作,為生成式 AI 打造一個世界級的用戶界面,讓用戶能夠充分控制。盡管 DreamStudio 仍將是 Stability 公司托管的 StableStudio 的實現,但最終目標是培養一個能夠超越任何由單一公司開發的項目。
具體來說,StableStudio 和 DreamStudio 有什么區別?
Stability AI 做了一些調整,使得該項目對社區更加友好。包括:
- 刪除了 DreamStudio 專屬品牌;
- 所有在線 API 調用都已被插件系統取代,用戶可以輕松更換后端;
- 刪除了專屬于 Stability 的帳戶功能,例如計費、API 密鑰管理等。
擴展功能
DreamStudio 最初被設想為 Disco Diffusion 的動畫 studio,2022 年 Stable Diffusion 發布之后,DreamStudio 的重點就轉向了圖像生成。
受今年爆火的對話模型啟發,4 月 Stability AI 發布了開源 LLM StableVicuna。DreamStudio 的開源版本 StableStudio 將和 StableVicuna 結合,推出聊天界面。
StableVicuna 對話示例。
Stable Diffusion XL 生成的「Stable Vicuna」。
Stability AI 表示,StableStudio 未來可能會更新以下功能:
- 通過 WebGPU 進行局部推理
- 通過 stable-diffusion-webui 進行局部推理
- 桌面安裝
- Contro.NET 工具
安裝與使用
StableStudio 項目已在 GitHub 上線,其中包含快速安裝方法。
項目地址:https://github.com/Stability-AI/StableStudio
要使用 StableStudio,用戶需要先安裝 Node.js 和 Yarn。然后按照如下命令克隆 StableStudio 存儲庫
git clone https://github.com/Stability-AI/StableStudio.git
cd StableStudio
yarn
yarn dev
默認情況下,StableStudio 在 localhost:3000 上運行。用戶需要準備 API 密鑰才能使用默認的 Stability API 插件;如果沒有,則需要在 DreamStudio 上創建帳戶并獲取密鑰。
圖像生成主流模型
無論是 DreamStudio,還是開源版本的 StableStudio,其背后的基礎模型都是當前大火的圖像生成模型 Stable Diffusion。Stable Diffusion 因其能在消費級 GPU 上快速生成高質量圖像而得到廣泛使用。
Stable Diffusion 模型的技術最早來源于發表在 CVPR 2022 中的一篇論文《High-Resolution Image Synthesis with Latent Diffusion Models》。為了訓練出 Stable Diffusion,研究團隊動用了 4000 個 A100 Ezra-1 AI 超大集群, Stability AI 公司提供了這些算力。
2022 年 8 月,Stability AI 宣布發布 Stable Diffusion 并開源,11 月,他們又發布了 Stable Diffusion 2.0 版本。現在,Stable Diffusion 已取代 GAN 成為圖像生成領域主流模型。