【ITBEAR】OpenAI近期在人工智能領(lǐng)域取得了重大突破,其研究人員程璐和楊松發(fā)表了一篇關(guān)于新型連續(xù)時(shí)間一致性模型(sCM)的論文。這一模型在生成圖像、視頻和音頻等多媒體內(nèi)容方面,速度相較于傳統(tǒng)擴(kuò)散模型提升了50倍,僅需十分之一秒即可生成高質(zhì)量圖像。
sCM模型通過僅兩個(gè)采樣步驟,就能實(shí)現(xiàn)與傳統(tǒng)擴(kuò)散模型相當(dāng)?shù)臉颖举|(zhì)量,顯著降低了計(jì)算成本和時(shí)間。這一創(chuàng)新使得實(shí)時(shí)生成AI應(yīng)用變得更加可行,為多媒體內(nèi)容的快速生成提供了新的解決方案。
擴(kuò)散模型雖在生成逼真多媒體內(nèi)容方面表現(xiàn)出色,但其采樣效率低下,限制了實(shí)時(shí)應(yīng)用。而sCM模型則克服了這一挑戰(zhàn),實(shí)現(xiàn)了速度與質(zhì)量的雙重提升。
sCM模型在ImageNet 512×512上進(jìn)行了訓(xùn)練,可擴(kuò)展至15億個(gè)參數(shù),同時(shí)保持了與最佳擴(kuò)散模型相媲美的樣本質(zhì)量。基準(zhǔn)測(cè)試顯示,sCM模型在減少計(jì)算開銷的同時(shí),仍能提供頂級(jí)結(jié)果。
隨著sCM模型規(guī)模的擴(kuò)大,樣本質(zhì)量的差距進(jìn)一步縮小。這一模型的成功還得益于其能夠隨著從中提煉知識(shí)的教師傳播模型按比例擴(kuò)展,使得采樣步驟數(shù)的增加會(huì)進(jìn)一步縮小質(zhì)量差異。
sCM模型的快速采樣和可擴(kuò)展性為實(shí)時(shí)生成AI開辟了新的可能性,從圖像生成到音頻和視頻合成,為需要快速、高質(zhì)量輸出的應(yīng)用程序提供了實(shí)用解決方案。