StabilityAI又雙叒叕放大!
就在昨天,StabilityAI在官網(wǎng)上重磅宣布——旗下的文生圖應(yīng)用DreamStudio開源了!開源產(chǎn)品更名為StableStudio。
據(jù)官網(wǎng)介紹,此次開源意味著StabilityAI的圖片生成產(chǎn)品線邁入一個全新的篇章,也展現(xiàn)出了StabilityAI推廣開源模型的決心。
AI的盡頭是開源
自從Stable Diffusion發(fā)布以來,DreamStudio就是StabilityAI最主要的應(yīng)用,用來展示最新的模型和功能。
最近,DreamStudio來了一波升級,改用了StabilityAI最新的圖像生成模型——SDXL。
原本該應(yīng)用的功能就是一個平臺,讓廣大用戶能用上生成圖片的AI模型。到目前為止,用戶得生成了少說成百上千的圖片。
而此次發(fā)布的重磅炸彈,是因為StabilityAI相信,最好的推廣生圖模型的方式,就是開源,發(fā)展社群,而非閉關(guān)鎖國。
誠如LeCun所說,AI發(fā)展的盡頭是開源。
StabilityAI表示,他們的目標(biāo)是和更多開發(fā)者社區(qū)建立合作關(guān)系,打造一個完全由用戶控制的生成性AI的界面。
雖說DreamStudio將繼續(xù)負(fù)責(zé)StableStudio的運營,但StabilityAI的目標(biāo)是把StableStudio打造成一個獨立的項目。
而且,StabilityAI的野心可不小,誓要把StableStudio搞的比任何一個獨立公司都要牛。
追溯起DreamStudio的起源,它最初是Disco Diffusion下的一個動畫工作室。隨著去年夏天Stable Diffusion的發(fā)布,Disco Diffusion的重點也從動畫轉(zhuǎn)到了圖像生成。
StabilityAI的目標(biāo)就是為生成性AI創(chuàng)造一個強(qiáng)大的多模式體驗,該公司一直在為這個目標(biāo)而努力。
因此,StabilityAI在最新的StableStudio項目中公布了即將推出的聊天界面——
人手一個Midjourney?
在今年3月,DreamStudio也是發(fā)布了最新的一次更新。
新的穩(wěn)定擴(kuò)散微調(diào)(Stable unCLIP 2.1, Hugging Face),分辨率為768x768,基于SD2.1-768。
這個模型允許圖像變化,以及混合操作。
由于其模塊化,可以與其他模型,如KARLO,進(jìn)行結(jié)合。這里面有兩個變體:Stable unCLIP-L和Stable unCLIP-H,它們分別以CLIP ViT-L和ViT-H圖像嵌入為條件。
再來看看幾組StableStudio生成的圖片。
不得不說,和Midjourney比真是不遑多讓。
開源——StabilityAI的優(yōu)良傳統(tǒng)
而開源,一向是Stable家族的傳統(tǒng)。
就在上個月,Stability AI宣布推出他們的第一個大語言模型——StableLM。
劃重點:它也是開源的,在Github上已經(jīng)可用。模型從3B和7B參數(shù)開始,隨后會有15B到65B的版本。
并且, Stability AI還發(fā)布了用于研究的RLHF微調(diào)模型。
項目地址:https://github.com/Stability-AI/StableLM/
Stability AI官方聲稱:Alpha版本的StableLM有30億和70億個參數(shù),之后還有150億到650億參數(shù)的后續(xù)版本。
StabilityAI還豪橫地表示,開發(fā)者隨便用。只要遵守相關(guān)條款,不管是檢查、應(yīng)用還是改編基礎(chǔ)模型,想怎么來怎么來。
StableLM功能強(qiáng)大,不光可以生成文本和代碼,還能給下游應(yīng)用提供技術(shù)基礎(chǔ)。它是一個很好的范例,展示了小型、高效的模型通過適當(dāng)訓(xùn)練就可以有足夠高的性能。
早年間,Stability AI和非營利性研究中心Eleuther AI一起開發(fā)過早期的語言模型,可以說,Stability AI積淀很深。
像什么GPT-J、GPT-NeoX和Pythia,這都是兩家公司合作訓(xùn)練的產(chǎn)物,在The Pile開源數(shù)據(jù)集上訓(xùn)練完成。而后續(xù)的更多開源模型,比如Cerebras-GPT和Dolly-2都是上面三兄弟的后續(xù)產(chǎn)品。
說回StableLM,它是在建立在The Pile基礎(chǔ)上的新數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集包含1.5萬億個token,大約是The Pile的3倍。模型的上下文長度為4096個token。在即將發(fā)布的技術(shù)報告中,Stability AI會公布模型的規(guī)模和訓(xùn)練設(shè)置。
作為概念驗證,團(tuán)隊用斯坦福大學(xué)的Alpaca對模型進(jìn)行了微調(diào),并使用了最近的五個對話代理的數(shù)據(jù)集的組合:斯坦福大學(xué)的Alpaca、Nomic-AI的gpt4all、RyokoAI的ShareGPT52K數(shù)據(jù)集、Databricks labs的Dolly和Anthropic的HH。這些模型將作為StableLM-Tuned-Alpha發(fā)布。
當(dāng)然,這些微調(diào)過的模型僅僅用于研究,屬于非商業(yè)性質(zhì)。后續(xù),Stability AI還將會公布新數(shù)據(jù)集的更多細(xì)節(jié)。
其中,新數(shù)據(jù)集十分豐富,這也是為什么StableLM的性能很棒。雖說參數(shù)規(guī)模目前來看還是有點?。ê虶PT-3 1750億個參數(shù)相比是這樣的)。
Stability AI表示,語言模型是數(shù)字時代的核心,我們希望每個人都能在語言模型中有發(fā)言權(quán)。而StableLM的透明性??稍L問性、支持性等特點也是踐行了這個觀念。
Stability AI表示,目前這些模型已經(jīng)在GitHub公布,未來還會有完整的技術(shù)報告問世。Stability AI期待和廣泛的開發(fā)者和研究人員進(jìn)行合作。同時,他們還表示將啟動眾包RLHF計劃,開放助手合作,為AI助手創(chuàng)建一個開源的數(shù)據(jù)集。
隨著StableLM的推出,可以說Stability AI在用AI造福所有人的路上越走越遠(yuǎn)了。
畢竟,開源一向是他們的優(yōu)良傳統(tǒng)。
在2022年,Stability AI提供了多種方式讓大家使用Stable Diffusion,包括公開demo、軟件測試版和模型的完整下載,開發(fā)人員可以隨意使用模型,進(jìn)行各種集成。
作為一個革命性的圖像模型,Stable Diffusion代表著一個透明、開放和可擴(kuò)展的專有AI替代方案。顯然,Stable Diffusion讓大家看到了開源的各種好處,當(dāng)然也會有一些無法避免的壞處,但這無疑是一個有意義的歷史節(jié)點。