【ITBEAR】8月6日消息,智譜科技在7月26日正式推出了其創(chuàng)新性的AI視頻生成應(yīng)用“清影”,并同步上線了智譜清言APP,該應(yīng)用能夠在短短30秒內(nèi)將用戶提供的任意文字或圖片轉(zhuǎn)化為生動視頻。這一技術(shù)突破標(biāo)志著視頻內(nèi)容創(chuàng)作領(lǐng)域邁入了一個全新的自動化時代。
智譜科技不僅止步于產(chǎn)品發(fā)布,更宣布將“清影”背后的核心視頻生成模型——CogVideoX進(jìn)行開源,旨在鼓勵每一位開發(fā)者、每一家企業(yè)都能基于這一強(qiáng)大基礎(chǔ),自由探索并開發(fā)出符合自身需求的視頻生成解決方案。這一舉措無疑將極大地促進(jìn)視頻生成技術(shù)的普及與應(yīng)用創(chuàng)新。
CogVideoX開源模型家族涵蓋了多個尺寸規(guī)格,以滿足不同場景下的使用需求。目前,智譜已率先開放CogVideoX-2B模型,該模型在FP-16精度下展現(xiàn)出了極高的效率,推理過程僅需18GB顯存支持,而進(jìn)行微調(diào)時則僅需40GB顯存,這意味著即便是使用單張NVIDIA 4090或A6000顯卡,用戶也能輕松駕馭這一強(qiáng)大的視頻生成工具。
據(jù)ITBEAR了解,CogVideoX-2B模型在功能表現(xiàn)上同樣可圈可點(diǎn),它支持最多226個token的提示詞輸入,能夠生成長達(dá)6秒、幀率為8幀/秒、分辨率為720*480的視頻內(nèi)容。這一規(guī)格雖然已足夠滿足多數(shù)基礎(chǔ)應(yīng)用場景,但智譜科技明確表示,他們已為視頻質(zhì)量的進(jìn)一步提升預(yù)留了充分的空間,并期待開發(fā)者們能在提示詞優(yōu)化、視頻長度擴(kuò)展、幀率提升、分辨率升級以及場景微調(diào)等多個方面貢獻(xiàn)自己的力量,共同推動視頻生成技術(shù)的持續(xù)進(jìn)步。
此外,智譜科技還透露,他們正在研發(fā)性能更強(qiáng)、參數(shù)量更大的視頻生成模型,并將適時對外發(fā)布。這無疑為整個視頻生成領(lǐng)域注入了更多的期待與想象空間。
自“清影”發(fā)布以來,其受歡迎程度超乎想象。據(jù)智譜發(fā)布的數(shù)據(jù)顯示,該應(yīng)用在發(fā)布后的短短6天內(nèi),就已經(jīng)生成了超過百萬量級的視頻內(nèi)容,充分證明了市場對這一創(chuàng)新技術(shù)的熱切需求與高度認(rèn)可。